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内 容 提 要 
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技术 、 虚 拟 化 技术 、 集 群 系统 基础 、MPI、Hadoop、HPCC、Storm、 数 据 中 心 技 术 和 云 计 算 大 数据 仿 
真 技 术 。 本 书 注重 实用 ， 实 验 丰 富 ， 将 实验 内 容 融 合 在 课程 内 容 中 ， 使 理论 紧密 联系 实际 。 
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计算 技术 的 发 展 经 历 从 合 到 分 ， 又 从 分 到 合 的 历程 ， 这 发展 历程 中 内 在 的 推动 力 就 是 
术 。 最 早 的 电子 管 计算 机 系统 价格 日 贵 、 体 积 巨大 ， 计 算 资源 只 能 被 集中 放 在 机 房 ， 随 着 芯片 
技术 的 发 展 大 规模 集成 电路 技术 使 计算 机 的 体积 变 得 很 小 ， 同 时 微软 视窗 系统 的 出 现 使 计算 以 
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oo! 


So 


用 者 只 需要 对 资源 按 需 付费 ， 从 而 敏捷 地 响应 客户 不 断 变 化 的 资源 需求 ， 这 一 方法 降低 了 资源 
使 用 者 的 成 本 ， 提 高 了 资源 的 利用 效率 。 
在 云 计 算 时 代 基 本 的 3 种 角色 为 : 资源 的 整合 运营 者 、 资 源 的 使 用 者 、 终 端 客 户 。 资 源 的 
合 运营 者 就 像 是 发 电厂 负责 资源 的 整合 和 输出， 资源 的 使 用 者 负责 将 资源 转变 为 满足 客户 需求 
的 各 种 应 用 ， 终 端 客 户 为 资源 的 最 终 消费 者 。 

云 计算 这 种 新 的 模式 的 出 现 被 认为 是 信息 产业 的 一 大 变 草 ， 从 而 吸引 了 大 量 企业 的 注意 
力 。 国 际 巨头 IBM、 微 软 、 谷 歌 、DELL 等 企业 都 在 云 计算 领域 进行 了 全 面 的 布局 ， 变 单 之 时 
正 是 机 会 出 现 的 时 候 ， 云 计算 的 出 现 更 是 给 国内 企业 一 次 重新 布局 的 机 会 ， 可 以 看 到 国内 的 华 
为 、 中 兴 、 腾 讯 、 阿 里 、 联 想 、 急 潮 、 五 丹 等 企业 都 相继 提出 目 己 的 云 计 算 战略 规划 ， 并 在 云 
计算 技术 和 市 场 都 进行 了 全 面 的 布局 。 

云 计 算 技 术 作 为 一 项 涵盖 面 广 旦 对 产业 影响 深远 的 技术 , 未 来 将 逐步 渗透 到 信息 产业 和 其 
他 产业 的 方方面面 ， 并 将 深刻 改变 产业 的 结构 模式 、 技 术 模式 和 产品 销售 模式 ， 进 而 深刻 影响 
人 们 的 生活 。 云 计算 会 逐步 成 为 人 们 生活 中 必 不 可 少 的 技术 。 同 时 移动 互联 网 的 出 现 使 云 计算 
应 用 走向 了 人 们 的 指 间 ， 推 动 了 云 计算 技术 的 应 用 发 展 ， 今 后 云 计算 将 是 一 项 随时 、 随 地 、 随 
身 为 我 们 提供 服务 的 技术 。 云 计算 的 出 现 也 将 如 电 的 出 现 一 般 ， 为 信息 产业 的 发 展 提供 无 限 的 
想象 空间 ， 使 应 用 的 创新 能 力 得 到 完全 释放 。 


1.1.2 云 计算 的 特点 


为 了 理解 云 计 算 这 个 概念 ， 只 了 解 一 个 简单 的 定义 是 不 够 的 ,我 们 还 需要 利用 云 计算 技 术 
的 特点 来 判断 一 个 技术 是 否 是 云 计算 技术 。 与 传统 的 资源 提供 方向 相 比 , 云 计 算 具 有 以 下 特点 。 

(1) 资源 池 弹 性 可 扩张 。 

云 计 算 系 统 的 一 个 重要 特征 就 是 资源 的 集中 管理 和 输出 ， 这 就 是 所 谓 的 资源 池 。 从 资源 低 
效率 的 分 散 使 用 到 资源 高 效 的 集约 化 使 用 正 是 云 计 算 的 基本 特征 之 一 。 分 散 的 资源 使 用 方法 造 
成 了 资源 的 极 大 浪费 ， 现 在 每 个 人 都 可 能 有 一 到 两 台 目 己 的 计算 机 ， 但 对 这 种 资源 的 利用 率 却 
非常 的 低 ， 计 算 机 在 大 量 时 间 都 是 在 等 待 状态 或 是 在 处 理 文字 数据 等 低 负荷 的 任务 。 资 源 集中 
起 来 后 资源 的 利用 效率 会 大 大 地 提高 ， 随 着 资源 需求 的 不 断 提高 ， 资 源 池 的 弹性 化 扩张 能 力 成 
为 云 计算 系统 的 一 个 基本 要 求 ， 云 计算 系统 只 有 具备 了 资源 的 弹性 化 扩张 能 力 才能 有 效 地 应 对 
不 断 增长 的 资源 需求 。 大 多 数 云 计算 系统 都 能 较为 方便 地 实现 新 资源 的 加 入 。 

(2) 按 需 提供 资源 服务 。 

云 计算 系统 市 给 客户 最 重要 的 好 处 就 是 敏捷 地 适应 用 户 对 资源 不 断 变化 的 需求 ， 云 计算 系 
统 实现 按 需 向 用 户 提 供 资源 能 大 大 节省 用 户 的 硬件 资源 开支 ， 用 户 不 用 自己 购买 并 维护 大 量 固 
定 的 硬件 资源 ， 只 需 向 目 己 实际 消费 的 资源 量 来 付费 。 按 需 提供 资源 服务 使 应 用 开发 者 在 逻辑 
上 可 以 认为 资源 池 的 大 小 是 不 受 限制 的 ， 这 就 使 应 用 软件 的 开发 者 拥有 了 更 大 的 想象 空间 和 创 
新 空间 ， 更 多 的 有 趣 应 用 将 在 云 计算 时 代 被 创造 出 来 ， 应 用 开发 者 的 主要 精力 只 需要 集中 在 自 
己 的 应 用 上 。 


(3) 虚拟 化 。 

现 有 的 云 计 算 平 台 的 重要 特点 是 利用 软件 来 实现 硬件 资源 的 虚拟 化 管理 、 调 度 及 应 用 。 通 
过 虚拟 平台 用 户 使 用 网 络 资源 、 计 算 资源 、 数 据 库 资源 、 硬 件 资源 、 存 储 资 源 等 ， 与 在 目 己 的 
本 地 计算 机 上 使 用 的 感觉 是 一 样 的 ， 相 当 于 是 在 操作 目 己 的 计算 机 ， 而 在 云 计算 中 利用 虚拟 化 
技术 可 大 大 降低 维护 成 本 和 提高 资源 的 利用 率 。 

(4) 网 络 化 的 资源 接 入 。 

从 最 终 用 户 的 角度 看 ， 基 于 云 计 算 系 统 的 应 用 服务 通常 都 是 通过 网 络 来 提供 的 ， 应 用 开发 
者 将 云 计 算 中 心 的 计算 、 存 储 等 资源 封装 为 不 同 的 应 用 后 往往 会 通过 网 络 提供 给 最 终 的 用 户 。 
云 计算 技术 必须 实现 资源 的 网 络 化 接 入 才能 有 效 地 向 应 用 开发 者 和 最 终 用 户 提供 资源 服务 。 这 
就 像 有 了 发 电厂 必须 还 要 有 输电 线 才能 将 电 传 送 给 用 户 。 所 以 网 络 技术 的 发 展 是 推动 云 计 算 技 
术 出 现 的 首要 动力 。 目 前 一 些 企业 将 网 络 化 的 软件 和 硬件 都 称 为 云 计 算 ， 就 是 因为 网 络 化 的 资 
源 接 入 方式 是 从 最 终 用 户 角 度 能 看 到 的 云 计 算 的 重要 特征 之 一 ， 这 些 产品 的 称呼 不 一 定 准确 但 
却 是 对 云 计 算 特 征 的 反映 。 

(5) 高 可 靠 性 和 安全 性 。 

用 户 数据 存储 在 服务 器 端 ， 而 应 用 程序 在 服务 顺 端 运行 ， 计 算 由 服务 器 端 来 处 理 。 所 有 的 
服务 分 布 在 不 同 的 服务 器 上 ， 如 果 什 么 地 方 〈 节 点 ) 出 问题 就 在 什么 地 方 终止 它 ， 男 外 再 启动 
一 个 程序 或 节点 ， 即 上 自动 处 理 失 败 节 点 ， 从 而 保证 了 应 用 和 计算 的 正常 进行 。 

数据 被 复制 到 多 个 服务 器 节点 上 有 多 个 副本 (备份 ) ， 存 储 在 云 里 的 数据 即使 遇 到 意外 删 
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1.1.3 云 计 算 技术 分 类 


目前 已 出 现 的 云 计算 技术 种 类 非常 多 ， 对 于 云 计 算 的 分 类 可 以 有 多 种 角度 。 从 技术 路 线 角 
度 可 以 分 为 资源 整合 型 云 计算 和 资源 切 分 型 云 计算 ;从 服务 对 像 角 度 可 以 分 为 公有 云 和 私有 云 ; 
按 资源 封装 的 层次 可 以 分 为 基础 设施 即 服务 (Infrastructure as a Service, IaaS) 、 平 台 即 服务 
( Platform as a Service, PaaS ) 和 软件 即 服务 ( Software as a Service, SaaS) 。 

1 . 按 技术 路 线 分 类 

资源 整合 型 云 计 算 : 这 种 类 型 的 云 计 算 系统 在 技术 实现 方面 大 多 体现 为 集群 架构 ， 通 过 
将 大 量 节 点 的 计算 资源 和 存储 资源 整合 后 输出 。 这 类 系统 通常 能 实现 跨 节 点 弹性 化 的 资源 池 
构建 ， 核 心 技 术 为 分 布 式 计算 和 存储 技术 。MPI、Hadoop、HPCC、Storm 等 都 可 以 被 分 类 为 
资源 整合 型 云 计 算 系 统 。 

资源 切 分 型 云 计算 : 这 种 类 型 最 为 典型 的 就 是 虚拟 化 系统 ， 这 类 云 计 算 系 统 通过 系统 虚拟 
化 实现 对 单个 服务 器 资源 的 弹性 化 切 分 ， 从 而 有 效 地 利用 服务 器 资源 ， 其 核心 技术 为 虚拟 化 技 
术 ， 这 种 技术 的 优点 是 用 户 的 系统 可 以 不 做 任何 改变 接 入 采用 虚拟 化 技术 的 云 系统 ， 是 目前 应 
用 较为 广泛 的 技术 ， 特 别 是 在 桌面 云 计算 技术 上 应 用 得 较为 成 功 ， 缺 点 是 跨 节 点 的 资源 整合 代 
价 较 大 。KVM、VMware 都 是 这 类 技术 的 代表 。 


Seman UTE | a 


Be 


2. 按 服务 对 象 分 类 

LAB: 指 服务 对 象 是 面向 公众 的 云 计 算 服务 ， 公 有 云 对 云 计 算 系统 的 稳定 性 、 安 全 性 和 
并 发 服务 能 力 有 更 高 的 要 求 。 

MAB: 指 主要 服务 于 某 一 组 织 内 部 的 云 计 算 服务 ， 其 服务 并 不 向 公众 开放 ， 如 企业 、 政 
府内 部 的 云 服 务 。 

公有 云 与 私有 云 的 界限 并 不 是 特别 清晰 ， 有 时 服务 于 一 个 地 区 和 团体 的 云 也 被 称 为 公有 
云 。 所 以 这 种 云 计 算 分 类 方法 并 不 是 一 种 准确 的 分 类 方法 ， 主 要 是 在 商业 领域 的 一 种 称呼 。 

3. 按 资源 封装 的 层次 分 类 

基础 设施 即 服务 (Infrastructure as a Service, IaaS) : 把 单纯 的 计算 和 存储 资源 不 经 封装 地 
直接 通过 网 络 以 服务 的 形式 提供 的 用 户 使 用 。 这 类 云 计 算 服务 用 户 的 自主 性 较 大 ， 就 像 是 发 电 
三 将 发 的 电 直 接送 出 去 一 样 。 这 类 云 服务 的 对 象 往往 是 具有 专业 知识 能 力 的 资源 使 用 者 ， 传 统 
数据 中 心 的 主机 租用 等 可 能 作为 Iaas 的 典型 代表 。 

平台 即 服 务 ( Platform as a Service, PaaS ) : 计算 和 存储 资 源 经 封装 后 ， 以 某 种 接口 和 协议 
的 形式 提供 给 用 户 调用 ， 资 源 的 使 用 者 不 再 直接 面 对 底 层 资 源 。 平 台 即 服务 需要 平台 软件 的 文 
撑 ， 可 以 认为 是 从 资源 到 应 用 软件 的 一 个 中 间 件 ， 通 过 这 类 中 间 件 可 以 大 大 减 小 应 用 软件 开发 
时 的 技术 难度 。 这 类 云 服 务 的 对 象 往往 是 云 计 算 应 用 软件 的 开发 者 ， 平 台 软 件 的 开发 需要 使 用 
者 具有 一 定 的 技术 能 力 。 

软件 即 服务 ( Software as a Service, SaaS) : 将 计算 和 存储 资源 封装 为 用 户 可 以 直接 使 用 的 
应 用 并 通过 网 络 提供 给 用 户 , SaaS 面向 的 服务 对 象 为 最 终 用 户 , 用 户 只 是 对 软件 功能 进行 使 用 ， 
无 需 了 解 任何 云 计算 系统 的 内 部 结构 ， 也 不 需要 用 户 具 有 专业 的 技术 开发 能 力 。 

如 图 1.1 所 示 , 云 计 算 系统 按 资源 封装 的 层次 分 为 aaS、PaaS、SaaS， 分 别 为 对 底层 硬件 资 
源 不 同 级 别 的 封装 ， 从 而 实现 将 资源 转变 为 服务 的 目的 。 传 统 的 信息 系统 资源 的 使 用 者 通常 是 
以 直接 占有 物理 硬件 资源 的 形式 来 使 用 资源 的 ， 而 云 填 算 系统 通过 IaaS、PaaS、Saas 等 不 同 层 
次 的 封装 将 物理 硬件 资源 封装 后 ， 以 服务 的 形式 利用 网 络 提供 给 资源 的 使 用 者 。 在 这 里 资源 的 
使 用 者 可 能 是 资源 的 二 次 加 工 者 ， 也 可 能 是 最 终 应 用 软件 的 使 用 者 ， 通 常 IaaS、Paas 层面 向 的 
资源 使 用 者 往往 是 资源 的 二 次 加 工 者 ， 这 类 资源 的 使 用 者 并 不 是 资源 的 最 终 消费 者 ， 他 们 将 资 
源 转变 为 应 用 服务 程序 后 以 Saas 的 形式 提供 给 资源 的 最 终 消 费 者 。 实现 对 物理 资源 封装 的 技术 
并 不 是 惟一 的 , 目前 不 少 的 软件 都 能 实现 , 甚至 有 的 系统 只 有 Saas 层 , 并 没有 进行 逐 层 的 封装 。 
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四 层 模型 对 应 的 服务 
1.1 云 计 算 服 务 体系 结构 


云 计算 的 服务 层次 是 根据 服务 类 型 即 服务 集合 来 划分 , 与 大 家 熟悉 的 计算 机 网 络 体系 结构 
中 层次 的 划分 不 同 。 在 计算 机 网 络 中 每 个 层次 都 实现 一 定 的 功能 ， 层 与 层 之 间 有 一 定 关 联 。 而 
云 计算 体系 结构 中 的 层次 是 可 以 分 割 的 ， 即 某 一 层次 可 以 单独 完成 一 项 用 户 的 请 求 而 不 需要 其 
他 层次 为 其 提供 必要 的 服务 和 支持 。 

在 云 计算 服务 体系 结构 中 各 层次 与 相关 云 产 品 对 应 。 

应 用 层 对 应 SaaS 软件 即 服 务 如 : Google APPS、SoftWare+Services。 

平台 层 对 应 Paas 平台 即 服 务 如 : IBM IT Factory, Google APPEngine、Force.como。 

基础 设施 层 对 应 Iaas 基础 设施 即 服务 如 : Amazo EC2、IBM Blue Cloud, Sun Grid. 

虚拟 化 层 对 应 硬件 即 服务 结合 Paas 提供 硬件 服务 ， 包 括 服务 器 集群 及 硬件 检测 等 服务 。 


1.2 大 数据 技术 概述 


1.2.1 大 数据 简介 


计算 和 数据 是 信息 产业 不 变 的 主题 ， 在 信息 和 网 络 技术 迅速 发 展 的 推动 下 ， 人 们 的 感知 、 
计算 、 仿 真 、 模 拟 、 传 播 等 活动 产生 了 大 量 的 数据 ， 数 据 的 产生 不 受 时 间 、 地 点 的 限制 ， 大 数 
据 的 概念 逐渐 形成 ， 大 数据 洱 盖 了 计算 和 数据 两 大 主题 ， 是 产业 界 和 学 术 界 的 研究 热点 ， 被 淮 
为 未 来 十 年 的 革命 性 技术 。 

2008 年 ，《 Nature》 杂 志 推 出 了 “大 数据 ”专辑 ， 引 发 了 学 术 界 和 产业 界 的 关注 ; 2011 
年 ， 大 数据 应 用 进入 我 国 并 快速 发 展 ， 目 前 大 数据 的 应 用 和 研究 已 经 是 学 术 界 和 产业 界 的 
热点 ; 2012 年 3 月 ， 美 国政 府 发 布 《大 数据 研究 和 发 展 倡议 》， 投 资 2 亿美 元 发 展 大 数据 ， 
用 以 强化 国土 安全 、 转 变 教育 学 习 模 式 、 加 速 科 学 和 工程 领域 的 创新 速度 和 水 平 ; 2012 年 
7 月 , 日 本 提出 以 电子 政府 、 电 子 医 疗 、 防 灾 等 为 中 心 制定 新 ICT ( 信息 通信 技术 ) 战略 ， 
发 布 “ 新 ICT 计划 ”， 重 点 关注 大 数据 研究 和 应 用 ; 2013 年 1 月 ， 英 国政 府 宣布 将 在 对 地 
观测 、 医 疗 卫生 等 大 数据 和 节能 计算 技术 方面 投资 1.89 (CRB; 2013 年 我 国 上 海 、 重 庆 等 
地 相继 发 布 大 数据 行动 计划 。 

1. 什么 是 大 数据 

大 数据 是 一 个 比较 抽象 的 概念 ， 维 基 百 科 将 大 数据 描述 为 : 大 数据 是 现 有 数据 库 管理 工具 
和 传统 数据 处 理应 用 很 难处 理 的 大 型 、 复 杂 的 数据 集 ， 大 数据 的 挑战 包括 采集 、 存 储 、 搜 索 、 
共享 、 传 输 、 分 析 和 可 视 化 等 。 

大 数据 的 “大 ”是 一 个 动态 的 概念 ,以 前 10GB 的 数据 是 个 天 文 数字 ; 而 现在 , 在 地 球 、 
物理 、 基 因 、 空 间 科学 等 领域 ，TB 级 的 数据 集 已 经 很 普遍 。 大 数据 系统 需要 满足 以 下 三 个 
特性 。 

(1) 规模 性 ( Volume ) : 需要 采集 、 处 理 、 传 输 的 数据 容量 大 ; 

(2) 多 样 性 (Variety ) : 数据 的 种 类 多 、 复 杂 性 高 ; 


Ee Pm Se + UT SD] 4k — 


(3 ) 高 速 性 (Velocity ) : 数据 需要 频繁 地 采集 、 处 理 并 输出 。 

2. 数据 的 来 源 

大 数据 的 数据 来 源 很 多 ， 主 要 有 信息 管理 系统 、 网 络 信息 系统 、 物 联网 系统 、 科 学 实验 系 
统 等 ， 其 数据 类 型 包括 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 。 

(1) 管理 信息 系统 : 企业 内 部 使 用 的 信息 系统 ， 包 括 办 公 目 动 化 系统 、 业 务 管理 系统 等 ， 
是 常见 的 数据 产生 方式 。 管 理 信息 系统 主要 通过 用 户 输入 和 系统 的 二 次 加 工 的 方式 生成 数据 ， 
其 产生 的 数据 大 多 为 结构 化 数据 ， 存 储 在 数据 库 中 。 3 

(2) 网 络 信 息 系 统 : 基于 网 络 运行 的 信息 系统 是 大 数据 产生 的 重要 方式 ,电子 商务 系统 、 
社交 网 络 、 社 会 媒体 、 搜 索引 警 等 都 是 贡 见 的 网 络 信息 系统 ， 网 络 信息 系统 产生 的 大 数据 多 为 
半 结 构 化 或 无 结构 化 的 数据 ， 网 络 信息 系统 与 管理 信息 系统 的 区 别 在 于 管理 信息 系统 是 内 部 使 
用 的 ， 不 接 入 外 部 的 公共 网 络 。 

(3 ) 物 联网 系统 : 通过 传感器 获取 外 界 的 物理 、 化 学 、 生 物 等 数据 信息 。 

(4) 科学 实验 系统 : 主要 用 于 学 术科 学 研究 ， 其 环境 是 预先 设 定 的 ， 数 据 既 可 以 是 由 真实 
实验 产生 的 也 可 以 是 通过 模拟 方式 获取 仿真 的 。 

3. 生产 数据 的 三 个 阶段 

数据 库 技术 诞生 以 来 ， 人 们 生产 数据 的 方式 经 过 了 三 个 主要 的 发 展 阶段 。 

(1) 被 动 式 生成 数据 : 数据 库 技术 使 得 数据 的 保存 和 管理 变 得 简单 ， 业 务 系统 在 运行 时 
产生 的 数据 直接 保存 数据 库 中 ， 这 个 时 候 数据 的 产生 是 被 动 的 ， 数 据 是 随 着 业务 系统 的 运行 
产生 的 。 

(2) 主动 式 生 成 数据 : 互联 网 的 诞生 尤其 是 Web 2.0、 移 动 互 联网 的 发 展 大 大 加 速 了 数 
据 的 产生 ， 人 们 可 以 随时 随地 通过 手机 等 移动 终端 随时 随地 地 生成 数据 ， 人 们 开始 主动 地 生 
成 数据 。 据 统计 ， 在 1min 的 时 间 内 ,新浪 平均 有 2 万 条 微 博 产生 ， 苹 果 商 店 平均 有 4.7 万 次 
应 用 下 载 ， 淘 宝 平均 有 6 万 件 商品 交易 记录 ， 百 度 大 约 产 生 了 90 万 次 的 搜索 查询 ， 数 据 的 生 
成 大 大 加 速 。 

(3 ) 感知 式 生 成 数据 : 感知 技术 尤其 是 物 联 网 的 发 展 促进 了 数据 生成 方式 发 生 了 根本 性 的 
变化 ， 遍 布 在 城市 各 个 角落 的 摄像 头等 数据 采集 设备 源源 不 断 地 目 动 采 集 、 生 成 数据 。 

4. 大 数据 的 特点 

在 大 数据 的 背景 下， 数据 的 采集 、 分 析 、 处 理 与 传统 方式 有 很 大 的 不 同 。 

(1) 数据 产生 方式 : 在 大 数据 时 代 ， 数 据 的 产生 方式 发 生 了 巨大 的 变化 ， 数 据 的 采集 方式 
由 以 往 的 被 动 采集 数据 转变 为 主动 生成 数据 。 

(2) 数据 采集 密度 : 以 往 我 们 进行 数据 采集 时 的 采样 密度 较 低 ， 获 得 的 采样 数据 有 限 ; 在 
大 数据 时 代 ， 有 了 大 数据 处 理 平 台 的 支撑 , 我 们 可 以 对 需要 分 析 的 事件 的 数据 进行 更 加 密集 地 
采样 ， 从 而 精确 地 获取 事件 的 全 局 数据 。 

(3) 数据 产 : 以 往 我 们 多 从 各 个 单一 的 数据 源 获取 数据 ， 获 取 的 数据 较为 孤立 ， 不 同 数据 
源 之 间 的 数据 整合 难度 较 大 ; 在 大 数据 时 代 ， 我 们 可 以 通过 分 布 式 计算 、 分 布 式 文件 系统 、 分 
布 式 数 据 库 等 技术 对 多 个 数据 源 获取 的 数据 进行 整合 处 理 。 


(4) 数据 处 理 方式 : 以 往 我 们 对 数据 的 处 理 大 多 采用 离线 处 理 的 方式 ， 对 已 经 生成 的 数据 
集中 进行 分 析 处 理 ， 不 对 实时 产生 的 数据 进行 分 析 ; 在 大 数据 时 代 ， 我 们 可 以 根据 应 用 的 实际 
需求 对 数据 采取 灵活 的 处 理 方式 ， 对 于 较 大 的 数据 源 、 响 应 时 间 要 求 低 的 应 用 可 以 采取 批 处 理 
的 方式 进行 集中 计算 ， 而 对 于 响应 时 间 要 求 高 的 实时 数据 处 理 则 采用 流 处 理 的 方式 进行 实时 计 
BH, 并且 可 以 通过 对 历史 数据 的 分 析 进 行 预测 分 析 。 

大 数据 需要 处 理 的 数据 大 小 通常 达到 PB ( 1024 TB) 或 EB (1024 PB) 级 ， 数 据 的 类 
型 多 种 多 样 ， 包 括 结构 化 数据 、 半 结构 化 数据 和 非 结 构 化 数据 。 巨 大 的 数据 量 和 种 类 繁多 
的 数据 类 型 给 大 数据 系统 的 存储 和 计算 带 来 很 大 挑战 ， 单 节点 的 存储 容量 和 计算 能 力 成 为 
瓶颈 。 

分 布 式 系统 是 对 大 数据 进行 处 理 的 基本 方法 ， 分 布 式 系统 将 数据 切 分 后 存储 到 多 个 节点 
上 ， 并 在 多 个 节点 上 发 起 计算 ,解决 单 节 点 的 存储 和 计算 瓶 贷 。 常 见 的 数据 切 分 的 方法 有 随机 
方法 、 哈 希 方 法 和 区 间 方 法 ， 随 机 方法 将 数据 随机 分 布 到 不 同 的 节点 ， 哈 斋 方 法 根据 数据 的 某 
一 行 或 者 某 一 列 的 哈 希 值 将 数据 分 布 到 不 同 的 节点 ， 区 间 方 法 将 不 同 的 数据 按照 不 同 区 间 分 布 
到 不 同 节 点 。 

5. 大 数据 的 应 用 领域 

大 数据 在 社会 生活 的 各 个 领域 得 到 广泛 的 应 用 ,如 科学 计算 、 金 融 、 社 交 网 络 、 移 动 数据 、 
物 联 网 、 网 页 数据 、 多 媒体 等 ， 不 同 领域 的 大 数据 应 用 具有 不 同 的 特点 ， 其 对 响应 时 间 、 系 统 
稳定 性 、 计 算 精 确 性 的 要 求 各 不 相同 ， 其 对 比如 表 1.1 所 示 。 


1.1 典型 的 大 数据 应 用 特征 对 比 
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1.2.2 主要 的 大 数据 处 理 系统 


大 数据 处 理 的 数据 源 类 型 多 种 多 样 ， 如 结构 化 数据 、 半 结构 化 数据 、 非 结构 化 数据 ， 数 据 
处 理 的 需求 名 不 相同 ， 有 些 场合 需要 对 海量 已 有 数据 进行 批量 处 理 ， 有 些 场合 需要 对 大 量 的 实 
时 生成 的 数据 进行 实时 处 理 ， 有 些 场合 需要 在 进行 数据 分 析 时 进行 反复 迭代 计算 ， 有 些 场 合 需 
要 对 图 数据 进行 分 析 计 算 。 目 前 主要 的 大 数据 处 理 系统 有 数据 查询 分 析 计 算 系 统 、 批 处 理 系统 、 
流 式 计 算 系 统 、 和 迭代 计算 系统 、 图 计算 系统 和 内 存 计 算 系统 。 

1 . 数据 查询 分 析 计 算 系 统 

大 数据 时 代 ， 数 据 查 询 分 析 计 算 系 统 需要 具备 对 大 规模 数据 进行 实时 或 准 实时 查询 的 能 
力 ， 数 据 规模 的 增长 已 经 超出 了 传统 关系 型 数据 库 的 承载 和 处 理 能 力 。 目 前 主要 的 数据 查询 分 
析 计 算 系 统 包括 HBase、Hive、Cassandra、Dremel、Shark、Hana 等 。 

HBase: 开源 、 分 布 式 、 面 向 列 的 非 关 系 型 数据 库 模型 ， 是 Apache 的 Hadoop 项 目的 子 项 
目 ， 源 于 Google 论文 《Bigtable: 一 个 结构 化 数据 的 分 布 式 存储 系统 》， 实 现 了 其 中 的 压缩 算 
法 、 内 存 操作 和 布 隆 过 滤器 。HBase 的 编程 语言 为 Java。HBase 的 表 能 够 作为 MapReduce 任务 
的 输入 和 输出 ， 可 以 通过 Java API 来 存 取 数 据 。 

Hive: 基于 Hadoop 的 数据 仓库 工具 ， 用 于 查询 、 管 理 分 布 式 存储 中 的 大 数据 集 ， 提 供 完 
整 的 SQL 查询 功能 ， 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数 据 表 。Hive 提供 了 一 种 类 SQL 语 
言 (HiveQL ) 可 以 将 SQL 语句 转换 为 MapReduce 任务 运行 。 

Cassandra: 开源 NoSQL 数据 库 系 统 ， 最 早 由 Facebook 开发 ， 并 于 2008 年 开源 ， 由 于 其 良 
好 的 可 扩展 性 Cassandra 被 Facebook, Twitter, Rackspace, Cisco 等 公司 使 用 ， 其 数据 模型 借 
鉴 Amazon 的 Dynamo 和 Google BigTable, 是 一 种 流行 的 分 布 式 结构 化 数据 存储 方案 。 

Impala: 由 Cloudera 公司 主导 开发 ， 是 运行 在 Hadoop 平台 上 的 开源 的 大 规模 并 行 SQL 查 
询 引 擎 。 用 户 可 以 使 用 标准 的 SQL 接口 的 工具 查询 存储 在 Hadoop 的 HDFS 和 HBase 中 的 PB 
级 大 数据 。 

Shark: Spark 上 的 数据 仓库 实现 ， 即 SQL on Spark， 与 Hive 相 兼 容 ， 但 处 理 Hive QL 的 
性 能 比 Hive 快 100 倍 。 

Hana: 由 SAP 公司 开发 的 与 数据 产 无 关 、 软 硬件 结合 、 基 于 内 存 计 算 的 平台 。 

2. 批 处 理 系统 

MapReduce 是 被 广泛 使 用 的 批 处 理 计 算 模式 。 MapReduce 对 具有 简单 数据 关系 、 易 于 划分 
的 大 数据 采用 “分 而 冶 之 ”的 并 行 处 理 思 想 ， 将 数据 记录 的 处 理 分 为 Map Fil Reduce 两 个 简单 
的 抽象 操作 , 提供 了 一 个 统一 的 并 行 计算 框 染 。 批 处 理 系统 将 复杂 的 并 行 计 算 的 实现 进行 封装 ， 
大 大 降低 开发 人 员 的 并 行程 序 设计 难度 。Hadoop 和 Spark 是 典型 的 批 处 理 系统 。MapReduce 
FADER ESCA SHAT 

Hadoop: 目前 大 数据 处 理 最 主流 的 平台 ， 是 Apache 基金 会 的 开源 软件 项 目 ， 使 用 Java 语 
言 开发 实现 。Hadoop 平台 使 开发 人 员 无 需 了 解 底层 的 分 布 式 细节 , 即 可 开发 出 分 布 式 程序 , 在 


集群 中 对 大 数据 进行 存储 、 分 析 。 

Spark: 由 加 州 伯 克利 大 学 AMP 实验 室 开 发 ， 适 合用 于 机 融 学 习 、 数 据 控 掘 等 迭代 运算 较 
多 的 计算 任务 。 Spark 引入 了 内 存 计算 的 概念 , 运行 Spark 时 服务 器 可 以 将 中 间 数 据 存储 在 RAM 
内 存 中 ， 大 大 加 速 数据 分 析 结 果 的 返回 速度 ， 可 用 于 需要 互动 分 析 的 场景 。 

3. 流 式 计算 系统 

流 式 计算 具有 很 强 的 实时 性 ， 需 要 对 应 用 源源 不 断 产生 的 数据 实时 进行 处 理 ， 使 数据 不 积 
压 、 不 丢失 ， 常 用 于 处 理 电 信 、 电 力 等 行业 应 用 以 及 互联 网 行业 的 访问 日 志 等 。Facebook 的 
Scribe, Apache 的 Flume, Twitter 的 Storm, Yahoo 的 S4、UCBerkeley 的 Spark Streaming 是 第 
用 的 流 式 计 算 系 统 。 

Scribe: Scribe 由 Facebook 开发 开源 系统 ， 用 于 从 海量 服务 器 实时 收集 日 志 信息 ， 对 日 志 
信息 进行 实时 的 统计 分 析 处 理 ， 应 用 在 Facebook 内 部 。 

Flume: Flume 由 Cloudera 公司 开发 ,其 功能 与 Scribe 相似 , 主要 用 于 实时 收集 在 海量 节点 
上 产生 的 日 志 信 息 ， 存 储 到 类 似 于 HDFS 的 网 络 文件 系统 中 ， 并 根据 用 户 的 需求 进行 相应 的 数 
据 分 析 。 

Storm: 基于 拓扑 的 分 布 式 流 数 据 实时 计算 系统 ， 由 : BackType 公司 (后 被 Twitter 收购 ) 
开发 ， 现 已 经 开放 源 代 码 ， 并 应 用 于 淘宝 、 百 度 、 文 付 宝 、 Groupon, Facebook 等 平台 ， 是 主 
要 的 流 数据 计算 平台 之 一 。 

S4: S4 的 全 称 是 Simple Scalable Streaming System, 是 由 Yahoo 开发 的 通用 、 分 布 式 、 可 扩 
展 、 部 分 容错 、 具 备 可 插 拔 功能 的 平台 ， 其 设计 目的 是 根据 用 户 的 搜索 内 容 计 算得 到 相应 的 推 
荐 广告 ， 现 已 经 开源 ， 是 重要 的 大 数据 计算 平台 。 

Spark Streaming: 构建 在 Spark 上 的 流 数 据 处 理 框架 ， 将 流 式 计 算 分 解 成 一 系列 短小 的 批 处 
理 任务 进行 处 理 。 网 站 流量 统计 是 Spark Streaming 的 一 种 典型 的 使 用 场景 ， 这 种 应 用 既 需 要 具 
有 实时 性 ， 还 需要 进行 聚合 、 去 重 、 连 接 等 统计 计算 操作 ， 如 果 使 用 Hadoop MapReduce FER, 
则 可 以 很 容易 地 实现 统计 需求 ， 但 无 法 保证 实时 性 ; 如 果 使 用 Storm 这 种 流 式 框 染 则 可 以 保证 
实时 性 ， 但 实现 难度 较 大 ; Spark Streaming 可 以 以 准 实时 的 方式 方便 地 实现 复杂 的 统计 需求 。 

4. 迭代 计算 系统 

针对 MapReduce 不 支持 迭代 计算 的 缺陷 ， 人 们 对 Hadoop 的 MapReduce 进行 了 大 量 改进 ， 
Haloop 、iMapReduce、Twister、Spark 是 典型 的 迭代 计算 系统 。 

HaLoop: Haloop 是 Hadoop MapReduce 框 染 的 修改 版 本 ， 用 于 支持 迭代 、 递 归 类 型 的 数 
据 分 析 任 务 ， 如 PageRank、K 一 means 等 。 

iMapReduce: 一 种 基于 MapReduce 的 迭代 模型 ， 实 现 了 MapReduce 的 异步 迭代 。 

Twister: 基 于 Java 的 迭代 MapReduce 模型 ,上 一 轮 Reduce 的 结果 会 直接 传送 到 下 一 轮 的 Map。 

Spark : 基于 内 存 计 算 的 开源 集群 计算 框架 。 

5. 图 计算 系统 

社交 网 络 、 网 页 链接 等 包含 具有 复杂 关系 的 图 数据 ， 这 些 图 数据 的 规模 巨大 ， 可 包含 数 十 
亿 顶 点 和 上 百 亿 条 边 , 图 数据 需要 由 专门 的 系统 进行 存储 和 计算 。 常 用 的 图 计算 系统 有 Google 
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公司 的 Pregel、Pregel 的 开源 版 本 Giraph、 人 微软 的 Trinity, Berkeley AMPLab 的 GraphX 以 及 
高 速 图 数据 处 理 系统 PowerGraph。 

Pregel: Google 公司 开发 的 一 种 面向 图 数据 计算 的 分 布 式 编程 框架 , OK RA 
Google 的 数据 计算 任务 中 ， 大 约 80% 的 任务 处 理 采 用 MapReduce 模式 ， 如 网 页 内 容 索 引 ; 
数据 的 计算 任务 约 占 20%， 采 用 Pregel 进行 处 理 。 

Giraph: 一 个 迭代 的 图 计算 系统 ， 最 早 由 雅虎 公司 借鉴 Pregel 系统 开发 ， 后 捐赠 给 Apache 
软件 基金 会 ， 成 为 开 产 的 图 计算 系统 。Giraph 是 基于 Hadoop 建立 的 ，Facebook 在 其 脸谱 搜索 
服务 中 大 量 使 用 了 Giraph。 

Trinity: 微软 公司 开发 的 图 数据 库 系统 ， 该 系统 是 基于 内 存 的 数据 存储 与 运算 系统 ， 源 代 
但 不 公开 。 | 

GraphX: 由 AMPLab 开发 的 运行 在 数据 并 行 的 Spark 平台 上 的 图 数据 计算 系统 。 

PowerGraph: 高 速 图 处 理 系统 ， 篆 用 于 广告 推荐 计算 和 上 自然 语言 处 理 。 

6. 内 存 计算 系统 

随 着 内 存 价格 的 不 断 下 降 、 服 务 侨 可 配置 内 存 容量 的 不 断 增 长 ,使 用 内 存 计 算 完 成 高 速 的 
大 数据 处 理 已 成 为 大 数据 处 理 的 重要 发 展 方向 。 目 前 常用 的 内 存 计算 系统 有 分 布 式 内 存 计算 系 
统 Spark、 全 内 存 式 分 布 式 数 据 库 系统 HANA、Google 的 可 扩展 交互 式 查 询 系 统 Dremel. 

Dremel: Google 的 交互 式 数 据 分 析 系 统 , 可 以 在 数 以 干 计 的 服务 器 组 成 的 集群 上 发 起 计算 ， 
处 理 PB 级 的 数据 。Dremel 是 Google MapReduce 的 补充 ， 大 大 缩短 了 数据 的 处 理 时 间 ， 成 功 
地 应 用 在 Google 的 bigquery 中 。 

HANA: SAP 公司 开发 的 基于 内 存 技术 、 面 向 企业 分 析 性 的 产品 。 

Spark: 基于 内 存 计 算 的 开源 集群 计算 系统 。 


1.2.3 ”大 数据 处 理 的 基本 流程 


大 数据 的 处 理 流程 可 以 定义 为 在 适合 工具 的 辅助 下 ， 对 广泛 异 构 的 数据 源 进行 抽取 和 集 
成 ， 结 采 按 照 一 定 的 标准 统一 存储 ， 利 用 合适 的 数据 分 析 技 术 对 存储 的 数据 进行 分 析 ， 从 中 提 
取 有 益 的 知识 并 利用 恰当 的 方式 将 结果 展示 给 终端 用 户 。 大 数据 处 理 的 基本 流程 如 图 1.2 所 示 。 
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1.2 ”大 数据 处 理 的 基本 流程 


1 . 数据 抽取 与 集成 

由 于 大 数据 处 理 的 数据 来 源 类 型 丰富 ， 大 数据 处 理 的 第 一 步 是 对 数据 进行 抽取 和 集成 ， 从 
中 提取 出 关系 和 实体 ， 经 过 关联 和 聚合 等 操作 ， 按 照 统一 定义 的 格式 对 数据 进行 存储 。 现 有 的 
数据 抽取 和 集成 方法 有 3 种 : 基于 物化 或 ETL 方法 的 引擎 ( Materialization or ETL Engine ) 、 
基于 联邦 数据 库 或 中 间 件 方法 的 引擎 ( Federation Engine or Mediator ) 、 基 于 数据 流 方法 的 引擎 
(Stream Engine ) 。 | 

2. 数据 分 析 

数据 分 析 是 大 数据 处 理 流 程 的 核心 步骤， 通过 数据 抽取 和 集成 环 六 ,我们 已 经 从 异 构 的 数 
据 源 中 获得 了 用 于 大 数据 处 理 的 原始 数据 ,用 户 可 以 根据 目 己 的 需求 对 这 些 数据 进行 分 析 处 理 ， 
如 数据 挖 据 、 机 器 学 习 、 数 据 统计 等 ， 数 据 分 析 可 以 用 于 决策 支持 、 商 业 智能 、 推 荐 系统 、 预 
WAR. 

3. 数据 解释 

大 数据 处 理 流程 中 用 户 最 关心 的 是 数据 处 理 的 结果 ， 正确 的 数据 处 理 结果 只 有 通过 合适 的 
展示 方式 才能 被 终端 用 户 正 确 理解 ， 因 此 数据 处 理 结果 的 展示 非 党 重要， 可视化 和 人 机 交互 是 
数据 解释 的 主要 技术 。 

我 们 在 开发 调试 程序 的 时 候 经 和 常 通过 打印 语句 的 方式 来 呈现 结果 ， 这 种 方式 非常 灵活 、 方 
便 ， 但 只 有 熟悉 程序 的 人 才能 很 好 地 理解 打印 结果 。 

使 用 可 视 化 技术 ， 可 以 将 处 理 的 结果 通过 图 形 的 方式 直观 地 呈现 给 用 户 ， 标 答 云 (T_ ag 
Cloud) 、 历 史 流 ( History Flow) 、 空 间 信 息 流 ( Spatial Information Flow ) 等 是 常用 的 可 视 化 
技术 ， 用 户 可 以 根据 自己 的 需求 灵活 地 使 用 这 些 可 视 化 技术 ; 人 机 交互 技术 可 以 引导 用 户 对 数 
据 进 行 逐步 的 分 析 ， 使 用 户 参 与 到 数据 分 析 的 过 程 中 ,使 用 户 可 以 深刻 地 理解 数据 分 析 结 果 。 


1.3 ” 云 计 算 与 大 数据 的 发 展 


1 . 云 计算 与 大 数据 发 展 历程 

很 多 人 认为 云 计 算是 在 近 些 年 才 被 提出 来 的 ， 其 实 早 在 1958 年 ， 人 工 智能 之 父 John 
McCarthy 发 明了 函数 式 语 言 LISP ,LISP 语言 后 来 成 为 MapReduce 的 思想 来 源 。,1960 年 John 
McCarthy 预言 “今后 计算 机 将 会 作为 公共 设施 提供 给 公众 ”， 这 一 概念 与 我 们 现在 所 定义 
的 云 计 算 已 非常 相似 , 但 当时 的 技术 条 件 决 定 了 这 一 设想 只 是 一 种 对 未 来 技术 发 展 的 预言 。 
云 计 算 在 技术 发 展 到 一 定 阶段 后 才能 真正 出 现 。 一 般 认 为 云 计 算是 网 络 技术 发 展 到 一 定 阶 
段 后 必然 出 现 的 新 的 技术 体系 和 产业 模式 。 很 难 想 象 在 1986 年 中 国 第 一 封 E-mail 发 出 去 时 
560bps 的 网 速 条 件 下 能 出 现 云 计 算 这 样 的 技术 变 章 。1984 年 SUN 公司 提出 “网 络 就 是 计算 
机 ”这 一 具有 云 计 算 特征 的 论点 ，2006 年 Google 公司 CEO Eric Schmidt 提出 云 计算 概念 ， 
2008 年 云 计 算 概念 全 面 进入 中 国 ，2009 年 中 国 首届 云 计算 大 会 召开 ， 此 后 云 计 算 技 术 和 产 
品 迅速 地 发 展 起 来 。 
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随 着 社交 网 络 、 物 联网 等 技术 的 发 展 , 数据 正在 以 前 所 未 有 的 速度 增长 和 积累 ，IDC 的 研 
究 数据 表明 ， 全 球 的 数据 量 每 年 增长 50%， 两 年 翻 一 番 ， 这 意味 着 全 球 近 两 年 产生 的 数据 量 将 
超过 之 前 全 部 数据 的 总 和 。2011 年 全 球 数据 总 量 已 达 1.8ZB, 到 2020 年 , 全 球 数据 总 量 将 达到 
35 ZB。2008 年 《Nature》 杂 志 推 出 了 大 数据 专刊 ，2011 年 《Science》 杂 志 推 出 大 数据 专刊 ， 
讨论 科学 研究 的 中 大 数据 问题 。2012 年 大 数据 的 关注 度 和 影响 力 快速 增长 , 成 为 当年 达 沃 斯 世 
界 经 济 论坛 的 主题 , 美国 政府 启动 大 数据 发 展 计 划 。 中 国 计 算 机 学 会 于 2012 年 成 立 了 大 数据 专 
家 委员 会 ， 并 发 布 了 大 数据 技术 白皮书 。 

图 1.3 所 示 为 云 计算 、 大 数据 两 个 关键 词 近年 来 的 网 络 关注 度 , 可 以 看 出 2012 年 至 今 大 数 
据 的 关注 度 越 来 越 高 ， 云 计算 和 大 数据 是 信息 技术 未 来 的 发 展 方向 。 


图 1.3 近年 来 云 计 算 、 大 数据 的 关注 度 


网 络 技术 在 云 计算 和 大 数据 的 发 展 历程 中 发 挥 了 重要 的 推动 作用 。 可 以 认为 信息 技术 的 发 
展 经 历 了 硬件 发 展 推动 和 网 络 技术 推动 两 个 阶段 。 早 期 主要 以 硬件 发 展 为 主要 动力 ， 在 这 个 阶 
段 硬件 的 技术 水 平 决定 着 整个 信息 技术 的 发 展 水 平 ， 硬 件 的 每 一 次 进步 都 有 力 地 推动 着 信息 技 
术 的 发 展 ， 从 电子 管 技术 到 品 体 管 技术 再 到 大 规模 集成 电路 ， 这 种 技术 变革 成 为 产业 发 展 的 核 
心动 力 。 但 网 络 技术 的 出 现 逐 步 地 打破 了 单纯 的 硬件 能 力 决定 技术 发 展 的 格局 ， 通 信人 带宽 的 发 
展 为 信息 技术 的 发 展 提供 了 新 的 动力 ， 在 这 一 阶段 通信 带宽 成 为 了 信息 技术 发 展 的 决定 性 力量 
之 一 ， 云 计算 、 大 数据 技术 的 出 现 正 是 这 一 阶段 的 产物 ， 其 广泛 应 用 并 不 是 单纯 靠 某 一 个 人 发 
明 而 是 由 于 技术 发 展 到 现在 的 必然 产物 ， 生 产 力 决 定 生产 关系 的 规律 在 这 里 依然 是 成 立 的 。 

当前 移动 互联 网 的 出 现 并 迅速 普及 更 是 对 云 计 算 、 大 数据 的 发 展 起 到 了 推动 作用 。 移 动 
瘦 客 户 终端 与 云 计 算 资 源 池 的 结合 大 大 拓展 了 移动 应 用 的 思路 ， 云 计算 资源 得 以 在 移动 终端 
上 实现 随时 、 随 地 、 随 喘 资源 服务 。 移 动 互 联网 再 次 拓展 了 以 网 络 化 资源 交付 为 特点 的 云 计 
算 技术 的 应 用 能 力 ， 同 时 也 改变 了 数据 的 产生 方式 ， 推 动 了 全 球 数 据 的 快速 增长 ， 推 动 了 大 
数据 的 技术 和 应 用 的 发 展 。 

云 计 算是 一 种 全 新 的 领先 信息 技术 ， 结 合 IT 技术 和 互联 网 实现 超级 计算 和 存储 的 能 力 ， 
而 推动 云 计 算 兴 起 的 动力 是 高 速 互 联网 和 虚拟 化 技术 的 发 展 、 更 加 廉价 且 功 能 强劲 的 必 片 及 
硬盘 、 数 据 中 心 的 发 展 。 云 计算 作为 下 一 代 企 业 数据 中 心 ， 其 基本 形式 为 大 量 链 接 在 一 起 的 
共享 IT 基础 设施 ,不 受 本 地 和 远程 计算 机 资源 的 限制 ， 可 以 很 方便 地 访问 云 中 的 “虚拟 ” 资 
源 ， 使 用 户 和 云 服务 提供 商 之 间 可 以 像 访 问 网 络 一 样 进行 交互 操作 。 具 体 来 讲 ， 云 计算 的 兴 
起 有 以 下 因素 。 


(1 ) 高 速 互联 网 技术 发 展 。 

网 络 用 于 信息 发 布 、 信 息 交 换 、 信 息 收 集 、 信 息 处 理 。 网 络 内 容 不 再 像 早 些 年 那样 是 静态 
的 ， 门 户 网 站 随时 在 更 新 着 网 站 中 的 内 容 ， 网 络 的 功能 、 网 络 速度 也 在 发 生 巨 大 的 变化 ， 网 络 
成 为 人 们 学 习 、 工 作 和 生活 的 一 部 分 。 不 过 网 站 只 是 云 计算 应 用 和 服务 的 缩影 ， 云 计算 强大 的 
功能 正在 移动 互联 网 、 大 数据 时 代 崭 露头 角 。 

云 计 算 能 够 利用 现 有 的 IT 基础 设施 在 极 短 的 时 间 内 处 理 大量 的 信息 以 满足 动态 网 络 的 高 
性 能 的 需求 。 

(2) 资源 利用 率 需求 。 

能 耗 是 企业 特别 关注 的 问题 。 大 多 数 企业 服务 器 的 计算 能 力 使 用 率 很 低 ， 但 同样 需要 消耗 
大 量 的 能 源 进行 数据 中 心 降温 。 引 入 云 计 算 模式 后 可 以 通过 整合 资源 或 采用 租用 存储 空间 、 租 
用 计算 能 力 等 服务 来 降低 企业 运行 成 本 和 节省 能 源 。 

同时 , 利用 云 计算 将 资源 集中 , 统一 提供 可 靠 服务 , 并 能 减少 企业 成 本 , 提升 企业 灵活 性 ， 
企业 可 以 把 更 多 的 时 间 用 于 服务 客户 和 进一步 研发 新 的 产品 上 。 

(3) 简单 与 创新 需求 。 

在 实际 的 业务 需求 中 ， 越 来 越 多 的 个 人 用 户 和 企业 用 户 都 在 期 待 着 使 用 计算 机 操作 能 简 
单 化 ， 能 够 直接 通过 购买 软件 或 硬件 服务 而 不 是 软件 或 硬件 实体 ， 为 自己 的 学 习 、 生 活 和 工 
作 带 来 更 多 的 便利 , 能 在 学 习 场 所 、 工 作 场所 、 住 所 之 间 建 立 便利 的 文件 或 资料 共享 的 纽带 。 
而 对 资源 的 利用 可 以 简化 到 通过 接 入 网 络 就 可 以 实现 自己 想 要 实现 的 一 切 ， 就 需要 在 技术 上 
有 所 创新 ， 利 用 云 计 算 来 提供 这 一 切 ， 将 我 们 需要 的 资料 、 数 据 、 文 档 、 程 序 等 全 部 放 在 云 
端 实现 同步 。 

(4) 其 他 需求 。 

连接 设备 、 实 时 数据 流 、SOA 的 采用 以 及 搜索 、 开 放 协 作 、 社 会 网 络 和 移动 商务 等 的 移动 
互联 网 应 用 急剧 增长 ， 数 字 元 器 件 性 能 的 提升 也 使 IT 环境 的 规模 大 幅度 提高 ， 从 而 进一步 加 
强 了 对 一 个 由 统一 的 云 进 行 管理 的 需求 。 

个 人 或 企业 希望 按 需 计算 或 服务 ， 能 在 不 同 的 地 方 实 时 实现 项 目 、 文 档 的 协作 处 理 ， 能 在 
繁杂 的 信息 中 方便 地 找到 自己 需要 的 信息 等 需求 也 是 云 计算 兴起 的 原因 之 一 。 

人 类 历史 不 断 地 证 明生 产 力 决定 生产 关系 , 技术 的 发 展 历史 也 证 明了 技术 能 力 决 定 技术 的 
形态 , 纵 观 整个 信息 技术 的 发 展 历史 ( 见 图 1.4) ， 从 图 中 可 以 看 出 信息 产业 发 展 有 两 个 重要 的 
内 在 动力 在 不 同时 期 起 着 作用 : 硬件 驱动 力 、 网 络 驱动 力 。 这 两 种 驱动 力量 的 对 比 和 变化 决定 
着 产业 中 不 同 产品 的 出 现时 期 以 及 不 同形 态 的 企业 出 现 和 消亡 的 时 间 。 也 正 是 这 两 种 驱动 力 的 
力量 变化 造成 了 信息 产业 技术 体系 的 分 分 合 合 ， 技 术 的 形态 也 经 历 了 从 合 到 分 和 从 分 到 合 的 两 
个 过 程 ， 由 最 早 集中 的 计算 到 个 人 计算 机 分 散 的 计算 再 到 集中 的 云 计算 。 整 个 信息 产业 中 出 现 
的 各 种 产品 模式 和 企业 模式 都 能 在 图 中 找到 位 置 ,这 幅 图 既 能 解释 产业 历史 又 能 预测 产业 未 来 ， 
是 我 们 解 开 很 多 产业 困惑 的 钥匙 。 
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1.4 信息 产业 发 展演 进 路 线 


硬件 驱动 的 时 代 诞 生 了 IBM、 微 软 、Intel 等 企业 。20 世纪 50 年 代 最 早 的 网 络 开始 出 现 ， 
信息 产业 的 发 展 驱 动力 中 开始 出 现 网 络 的 力量 ,但 当时 网 络 性 能 很 弱 ， 网 络 并 不 是 推动 信息 产 
业 发 展 的 主要 动力 ， 处 理 融 等 硬件 的 影响 还 记 绝 对 主导 因素 。 但 随 着 网络 的 发 展 ， 网 络 通信 带 
宽 逐 步 加 大 ， 从 20 世纪 80 年 代 的 局 域 网 到 20 世纪 90 年 代 的 互联 网 ， 网 络 逐 渐 成 为 了 推动 信 
娠 产业 发 展 的 主导 力量 ， 这 个 时 期 诞生 了 百度 、 合 歌 、 亚 马 还 等 企业 。 直 到 云 计算 的 出 现 才 标 
志 着 网 络 已 成 为 信息 产业 发 展 的 主要 驱动 力 ， 此 时 技术 的 变 章 即将 出 现 。 

2. 为 云 计算 与 大 数据 发 展 做 出 贡献 的 科学 家 

人 ii 了 重要 的 页 献 ， 让 我 们 向 这 些 科 学 家 表 
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ec 算 机 之 父 一 一 西 摩 . 克 雷 (Seymour Cray) ( 见 图 1.5) 


图 1.5 foe: 克 雷 


在 人 类 解决 计算 和 存储 问题 的 历程 中 , PORE + 克 备 成 为 了 一 座 丰 碑 ， 被 称 为 超级 计算 机 之 
父 。 西 摩 . 克 雷 ， 生 于 1925 年 9 月 28 日 ， 美国 人，1958 年 设计 建造 了 世界 上 第 一 台 基 于 晶体 
管 的 超级 计算 机 ， 成 为 计算 机 发 展 史 上 的 重要 里 程 碑 。 同 时 也 对 精简 指令 (RISC ) 高 端 微 处 理 
器 的 产生 有 重大 的 贡献 。1972 年 ， 他 创办 了 克 雷 研究 公司 ， 公 司 的 宗旨 是 只 生产 超级 计算 机 。 
此 后 的 十 余年 中 ， 克 雷 先 后 创造 了 Cry-1.7Cry-2 等 机 型 。 作 为 高 性 能 计算 机 领域 中 最 重要 
的 人 物 之 一 ， 他 杀手 设计 了 Cray 全 部 的 硬件 与 操作 系统 。Cray 机 成 为 了 从 事 高 性 能 计算 学 者 
中 永远 的 记忆 ,截至 1986 年 1 A, 世界 上 有 130 台 超 级 计算 机 投入 使 用 , 其 中 大 约 90 台 是 由 克 
雷 的 上 市 公司 一 一 区 备 研 究 所 研制 的 。 美 国 的 《商业 周刊 》 在 1990 年 的 一 篇 文章 中 曾 这 样 写 道 : 
“ 西 摩 . 克 备 的 天 赋 和 非凡 的 干劲 已 经 给 本 世纪 的 技术 留 下 了 不 可 磨灭 的 印记 ”。2013 年 11 月 高 
性 能 计算 Top500 排行 中 第 2 名 和 第 6 名 均 为 Cray 机 。 

@ 云 计 算 之 父 一 一 约翰 麦卡锡 (John McCarthy) ( WA 1.6) 


16 约翰 麦卡锡 


约翰 . 麦卡锡 1927 年 生 于 美国 ，1951 年 获得 普林斯顿 大 学 数学 博士 学 位 。 他 因 在 人 工 智 
能 领域 的 贡献 而 在 1971 年 获得 图 灵 奖 ,麦卡锡 真正 广为人知 的 称呼 是 “人 工 智能 之 父 ”， 因 为 
他 在 1955 年 的 达 特 矛 斯 会 议 上 提出 了 “人 工 智能 ” 这 个 概念 , 使 人 工 智能 成 为 了 一 门 新 的 学 科 。 
1958 年 发 明了 LISP 语言 ， 而 LISP 语言 中 的 MapReduce 在 几 十 年 后 成 为 了 Google 云 计 算 和 大 
数据 系统 中 最 为 核心 的 技术 。 麦卡锡 更 为 富有 远见 的 预言 是 他 在 1960 年 提出 的 “今后 计算 机 将 
会 作为 公共 设施 提供 给 公众 ”这 一 观点 与 现在 的 云 计 算 的 理念 竟然 丝毫 不 差 。 正 是 由 于 他 提前 
半 个 多 世纪 就 预言 了 云 计算 这 种 新 的 模式 ， 因 此 我 们 将 他 称 为 “ 云 计算 之 父 ”。 


@ 互联 网 之 父 一 一 蒂 姆 . 伯 纳 斯 李 (Tim Berners-Lee ) 〈 见 图 1.7 ) 
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图 1.7 98 - 伯 纳 斯 - 李 
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云 计 算 的 出 现 得 益 于 网 络 的 发 展 ， 特 别 是 互联 的 出 现 大 大 推动 了 网 络 技术 的 发 展 ， 从 而 使 
资源 和 服务 能 通过 网 络 提供 给 用 户 。 带 姆 . 伯 纳 斯 ' 李 1955 年 生 于 英国 , 是 英国 星 家 学 会 会 员 ， 
英国 皇家 工程 师 学 会 会 员 ， 美国 国家 科学 院 院 士 。1989 年 3 月 他 正式 提出 万 维 网 的 设想 ，1990 
年 12 月 25 日， 他 在 日 内 瓦 的 欧洲 粒子 物理 实验 室 里 开发 出 了 世界 上 第 一 个 网 页 。 最 为 让 人 值 
得 尊敬 的 是 他 把 这 一 技术 免费 公开 并 推广 到 全 世界 ， 这 是 一 个 真正 科学 家 的 胸怀 。 

让 我 们 再 次 访问 世界 上 第 一 个 网 页 http://info.cern.ch 以 表示 向 他 的 敬意 。 由 于 他 的 杰出 贡 
献 ， 他 被 称 为 “互联 网 之 父 ”。 

@ 大 数据 之 父 一 一 吉姆 * 格雷 (Jim Gray) ( WA 1.8) 


图 1.8 吉姆 格雷 


云 计算 和 大 数据 是 密 不 可 分 的 两 个 概念 , 云 计算 时 代 网 络 的 高 度 发 展 ， 每 个 人 都 成 为 了 数 
据 产 生 者 ， 物 联网 的 发 展 更 是 使 数据 的 产生 呈现 出 随时 、 随 地 、 自 动 化 、 海 量化 的 特征 ， 大 数 
据 不 可 避免 地 出 现在 了 云 计算 时 代 。 吉 姆 .格雷 生 于 1944 年 , 在 著名 的 加 州 大 学 伯克利 分 校 计 
算 机 科学 系 获得 博士 学 位 ， 是 声誉 齐 闭 的 数据 库 专家 ，1998 年 度 的 图 灵 奖 获得 者 ，2007 年 1 
月 11 日 在 美国 国家 研究 理事 会 计算 机 科学 与 通信 分 会 上 吉姆 .格雷 明确 地 阐述 了 科学 研究 第 
四 范式 ， 认 为 依靠 对 数据 分 析 挖 掘 也 能 发 现 新 的 知识 ， 这 一 认识 吹 响 了 大 数据 前 进 的 号 角 ， 
计算 应 用 于 数据 的 观点 在 当前 的 云 计算 大 数据 系统 中 得 到 了 大 量 的 体现 。 在 他 发 表 这 一 演讲 
后 的 十 几 天 , 2007 年 1 月 28 号 格雷 独 目 染 船 出 海 就 再 也 没有 了 音讯 , 虽然 经 多 方 的 努力 搜索 
却 没有 发 现 一 丝 他 的 信息 ， 人 们 再 也 没 能 见 到 这 位 天 才 的 科学 家 。 

3. 云 计算 与 大 数据 的 国内 发 展现 状 

云 计 算 与 大 数据 概念 进入 中 国 以 来 ， 国 内 高 度 重 视 云 计算 产业 和 技术 的 发 展 ， 中 国电 子 学 
会 率先 成 立 了 云 计算 专业 委员 会 , 并 在 2009 年 举办 了 第 一 届 中 国 云 计算 大 会 ,该 委员 会 在 本 次 
大 会 后 ， 每 年 都 会 再 举办 一 次 ， 成 为 云 计算 领域 的 一 个 重要 会 议 ， 同 时 每 年 出 版 一 本 《 云 计 算 
技术 发 展 报告 》, 报道 当年 云 计 算 的 发 展 状况 。 中 国 计 算 机 学 会 于 2012 年 成 立 了 大 数据 专家 委 
员 会 ， 2013 年 发 布 了 《中 国 大 数据 技术 与 产业 发 展 自 皮 书 》， 并 举办 了 第 一 届 CCF 大 数据 学 

国内 的 研究 机 构 也 纷纷 开展 云 计 算 、 大 数据 研究 工作 ， 如 清华 大 学 、 中 国 科 学 院 计算 所 、 
华中 科技 大 学 、 成 都 信息 工程 学 院 并 行 计 算 实验 室 都 在 开展 相关 的 研究 工作 。 科 研 人 员 逐 步 发 


现在 云 计 算 的 新 的 体系 下 ， 有 大 量 需 要 研究 解决 的 问题 ， 如 理论 框 染 、 安 全 机 制 、 调 度 策略 、 
能 耗 模型 、 数 据 分 析 、 虚 拟 化 、 迁 移 机 制 等 。 自 “第 四 范式 ”提出 后 ， 数 据 成 为 科学 研究 的 研 
究 对 象 ， 大 数据 概念 成 为 云 计算 之 后 信息 产业 的 又 一 热点 ， 成 为 科研 领域 研究 的 热点 。 国 家 目 
然 科 学 基金 反映 了 我 国 科研 领域 的 进展 ，2009~2013 年 云 计算 、 大 数据 、 数 据 中 心 方 向 的 国家 
自然 科学 基金 立项 数据 如 图 1.9 ARAN 
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19 云 计 算 、 大 数据 、 数 据 中 心 方向 的 国家 自然 科学 基金 立项 情况 


三 个 方向 在 过 去 的 4 年 中 经 历 了 迅速 发 展 的 过 程 , 云 计算 从 2008 年 开始 进入 中 国 ,2009 
年 开始 有 项 目 立 项 ， 之 后 云 计算 立项 数目 开始 快速 增长 ， 成 为 三 个 方向 中 立项 数目 最 多 的 
方向 ; 大 数据 的 概念 较为 新 凌 ， 目 2012 开始 提出 ， 当 年 立项 6 项 ，2013 年 这 一 数字 便 迅 速 
攀升 至 53 项 ， 充 分 体现 大 数据 在 科研 领域 受到 的 重视 程度 ; 云 计 算 和 大 数据 的 发 展 推动 数 
据 中 心 规模 的 不 断 增 加 ， 数 据 中 心 的 建设 、 运 营 面临 很 多 新 问题 ， 数 据 中 心 也 成 为 相关 的 
研究 热点 。 

国内 的 企业 也 对 云 计 算 、 大 数据 给 予 了 高 度 关 注 ， 华 为 、 中 兴 、 阿 里 、 腾 讯 都 宣布 了 自己 
庞大 的 云 计算 计划 。 这 些 企业 多 年 来 积累 的 数据 在 大 数据 时 代 将 发 挥 巨 大 作用 。 数 据 分 析 、 数 
据 运营 的 作用 已 经 显现 出 来 ， 拥 有 用 户 数据 的 IT 企业 对 传统 的 行业 产生 了 巨大 影响 ，“ 数 据 
为 王 ” 的 时 代 正 在 到 来 。 


练习 题 


1. 在 信息 产业 的 发 展 历 程 中 ，  _ 、_ 作为 两 个 重要 的 内 在 动力 在 不 同时 
期 起 着重 要 作用 。 

2. 建造 了 世界 上 第 一 台 基 于 晶体 管 的 超级 计算 机 ， 被 洽 为 “超级 计算 
MLZ” o 

3. 最 早 预言 了 “今后 计算 机 将 会 作为 公共 设施 提供 给 公众 ”， 被 誉 为 
“ 云 计算 之 父 ”。 

4. 万 维 网 的 发 明 人 、 世 界 上 第 一 个 网 页 的 开发 者 是 5 
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”6. MapReduce 的 思想 来 源 是 语 


5. 提出 了 第 四 范式 ,被 誉 为 “大 数据 之 父 ”。 


if 


7. 按照 资源 封装 层次 ， 云 计算 可 分 为 三 种 类 型 。 
8. 与 传统 的 资源 提供 方式 相 比 ， 云 计算 具有 什么 特点 ? 
9. 云 计算 的 主要 技术 路 线 为 资源 聚合 型 和 资源 切 分 型 ， 其 中 资源 聚合 型 的 典型 系统 
， 资 源 切 分 型 的 典型 系统 
10. 简 述 主要 的 大 数据 处 理 系统 。 
11. 简 述 大 数据 处 理 的 基本 流程 。 


BRN HO IM MRLUP< eee PK IK 


回顾 计算 机 技术 的 发 展 历 程 ， 可 以 清晰 地 看 到 计算 机 技术 从 面向 计算 逐步 转变 到 面向 数据 
的 过 程 。 从 面向 计算 到 面向 数据 是 技术 发 展 的 必然 趋势 ， 并 不 能 把 云 计 算 的 出 现 归 功 于 任何 的 
个 人 和 企业 。 这 一 过 程 的 描述 如 图 2.1 所 示 ， 该 图 从 硬件 、 网 络 和 云 计 算 的 演进 过 程 等 方面 以 
时 间 为 顺序 进行 了 纵向 和 横向 的 对 比 。 


面向 数据 技术 发 展 
大 数据 进入 中 国 


麦卡锡 发 明 LISP 语 言 ”SUN 提 出 网 络 就 是 计算 机 云 计算 进入 中 国 
麦卡锡 首次 提出 云 计 算 理念 并 行 计算 网 格 计算 Google 提 出 云 计算 第 四 范式 
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变化 趋势 : (1) 从 面向 计算 到 面向 数据 ; (2) 从 硬件 为 核心 到 以 网 络 为 核心 ; (3) 从 集中 到 分 散 再 到 集中 


1954 


2.1 计算 机 技术 向 云 计 算 的 演进 

从 图 2.1 中 可 以 看 出 , 在 计算 机 技术 的 早期 由 于 硬件 设备 体积 庞大 、 价 格 昂贵 ， 这 一 阶 
段 数据 的 产生 还 是 “个 别 ” 人 的 工作 。 这 个 时 期 的 数据 生产 者 主要 是 科学 家 或 军事 部 门 ， 
他 们 更 关注 计算 机 的 计算 能 力 ， 计 算 能 力 的 高 低 决 定 了 研究 能 力 和 一 个 国家 军事 能 力 的 高 
低 。 相 对 而 言 由 于 这 时 数据 量 很 小 ， 数 据 在 整个 计算 系统 中 的 重要 性 并 不 突出 。 这 时 网 络 
还 没有 出 现 ， 推 动 计算 技 术 发 展 的 主要 动力 是 硬件 的 发 展 ， 这 个 时 期 是 硬件 的 高 速 变革 时 
期 ， 硬 件 从 电子 管 迅速 发 展 到 大 规模 集成 电路 。1969 年 ARPANET 的 出 现 改变 了 整个 计算 
机 技术 的 发 展 历史 ， 网 络 逐 步 成 为 推动 技术 发 展 的 一 个 重要 力量 ，1989 年 Tim Berners—Lee 
发 明 的 万 维 网 改变 了 信息 的 交流 方式 ， 特 别 是 高 速 移动 通信 网 络 技术 的 发 展 和 成 熟 使 现在 
数据 的 生产 成 为 全 球 人 的 共同 活动 ， 人 们 生产 数据 不 再 是 在 固定 时 间 和 固定 地 点 进行 ， 而 
是 随时 随地 都 在 产生 数据 。 微 博 、 博 客 、 社 交 网 、 视 频 共 享 网 站 、 即 时 通信 等 媒介 随时 都 
在 生产 着 数据 并 被 融入 全 球 网 络 中 。 

从 云 计 算 之 父 John McCarthy 提 出 云 计算 的 概念 到 大 数据 之 父 Gray 等 人 提出 科学 研究 的 第 
四 范式 ， 时 间 已 经 跨越 了 半 个 世纪 。 以 硬件 为 核心 的 时 代 也 是 面向 计算 的 时 代 ， 那 时 数据 的 构 
成 非常 简单 ， 数 据 之 间 基 本 没有 关联 性 ， 物 理学 家 只 处 理 物理 实验 数据 ， 生 物 学 家 只 处 理 生物 
学 数据 ， 计 算 和 数据 之 间 的 对 应 关系 是 非常 简单 和 直接 ， 这 个 时 期 研究 计算 和 存储 的 协作 机 制 
并 没有 太 大 的 实用 价值 。 到 了 以 网 络 为 核心 的 时 代数 据 的 构成 变 得 非常 复杂 , 数据 来 源 多 样 化 ， 
不 同 数据 之 间 存 在 大 量 的 隐 含 关联 性 ， 这 时 计算 所 面 对 的 数据 变 得 非常 复杂 ， 如 社会 感知 、 微 
关系 等 应 用 将 数据 和 复杂 的 人 类 社会 运行 相关 联 ， 由 于 人 人 都 是 数据 的 生产 者 ， 人 们 之 间 的 社 
会 关系 和 结构 就 被 隐 含 到 了 所 产生 的 数据 之 中 。 数 据 的 产生 目前 呈现 出 了 : 大 众 化 、 自 动 化 、 
连续 化 、 复 杂 化 的 趋势 。 云 计算 、 大 数据 概念 正 是 在 这 样 的 一 个 背景 下 出 现 的 。 这 一 时 期 的 典 
型 特征 就 是 计算 必须 面向 数据 ， 数 据 是 染 构 整个 系统 的 核心 要 素 ， 这 就 使 计算 和 存储 的 协作 机 
制 研究 成 为 需要 重点 关注 的 核心 技术 ， 计 算 能 有 效 找到 自己 需要 处 理 的 数据 ， 可 以 使 系统 能 更 


高 效 地 完成 海量 数据 的 处 理 和 分 析 。 云 计算 和 大 数据 这 两 个 名 词 也 可 看 作 是 描述 了 面向 计算 时 
代 信 息 技术 的 两 个 方面 ， 云 计算 侧重 于 描述 资源 和 应 用 的 网 络 化 交付 方法 ， 大 数据 侧重 于 描述 
面向 数据 时 代 由 于 数据 量 巨 大 所 带 来 的 技术 挑战 。 

信息 技术 领域 提出 的 面向 数据 的 概念 同时 也 开始 深刻 地 改变 了 科学 研究 的 模式 , 2007 年 者 
名 的 数据 库 专家 Gray 提出 了 科学 研究 的 第 四 范式 。 他 认为 利用 海量 的 数据 可 以 为 科学 研究 和 知 
识 发 现 提供 除 经 验 、 理 论 、 计 算 外 的 第 四 种 重要 方法 。 科 学 研究 的 四 个 范式 的 发 展 历程 也 同样 
反映 了 从 面向 计算 走向 面向 数据 的 过 程 。 

如 图 2.2 所 示 ， 人 类 早期 知识 的 发 现 主要 依赖 于 经 验 、 观 察 和 实验 , 需要 的 计算 和 产生 
的 数据 都 是 很 少 的 。 人 类 在 这 一 时 期 对 于 宇宙 的 认识 都 是 这 样 形成 的 ， 就 像 伽 利 略为 了 证 
明 自 由 落体 定理 ， 是 通过 在 比萨 斜 塔 扔 下 两 个 大 小 不 一 的 小 球 一 样 ， 人 类 在 那个 时 代 知 识 
的 获取 方式 是 原始 而 朴素 的 。 当 人 类 知识 积累 到 一 定 的 程度 后 ， 知 识 未 渐 形 成 了 理论 体系 ， 
如 牛顿 力学 体系 、Maxwell 的 电磁 场 理 论 ， 人 类 可 以 利用 这 些 理论 体系 去 预测 目 然 并 获取 新 
的 知识 ， 这 时 对 计算 和 数据 的 需求 已 经 在 明生 ， 人 类 已 可 以 依赖 这 些 理论 发 现 新 的 行星 ， 
如 海王 星 、 复 王 星 的 发 现 不 是 通过 观测 而 是 通过 计算 得 到 。 填 算 机 的 出 现 为 人 类 发 现 新 的 
知识 提供 了 重要 的 工具 。 这 个 时 代 正 好 对 应 于 面向 计算 的 时 代 ， 可 以 在 某 些 具有 完善 理论 
体系 领域 利用 计算 机 仿真 计算 来 进行 研究 。 这 时 计算 机 的 作用 主要 是 计算 ， 例 如 入 类 利用 
仿真 计算 可 以 实现 模拟 核 爆 这 样 的 复杂 计算 。 现 在 人 类 在 一 年 内 所 产生 的 数据 可 能 已 经 超 
过 人 类 过 去 几 干 年 产生 的 数据 的 总 和 ， 即 使 是 复杂 度 为 O(n) 的 数据 处 理 方法 在 面 对 庞 大 的 
7. 时 都 显得 力不从心 ， 人 类 逐步 进入 面向 数据 的 时 代 。 第 四 范式 说 明 可 以 利用 海量 数据 加 
上 高 速 计 算 发 现 新 的 知识 ， 计 算 和 数据 的 关系 在 面向 数据 时 代 变 得 十 分 紧密 ， 也 使 计算 和 
数据 的 协作 问题 面临 巨大 的 技术 挑战 。 


计算 萌 面向 计算 向 数据 


2.2 ”科学 研究 四 个 范式 的 发 展 历程 


2.2 云 计 算 与 物 联网 


云 计算 和 物 联网 的 出 现时 间 非 常 接近 , 以 至 于 有 一 段 时 间 云 计算 和 物 联网 两 个 名 词 总 是 同 
时 出 现在 各 类 媒体 上 。 物 联网 的 出 现 部 分 得 益 于 网 络 的 发 展 ， 大 量 传 感 右 数据 的 收集 需要 良好 
的 网 络 环境 ， 特 别 是 部 分 图 像 数 据 的 传输 更 是 对 网 络 的 性 能 有 较 高 的 要 求 。 在 物 联网 技术 中 传 
感 器 的 大 量 使 用 使 数据 的 生产 实现 目 动 化 ， 数 据 生产 的 目 动 化 也 是 推动 当前 大 数据 技术 发 展 的 
动力 之 一 。 物 联网 的 英文 名 称 为 “The Internet of Things” , 简称 : IOT。 由 该 名 称 可 见 ， 物 联 


a 


网 就 是 “ 物 物 相连 的 互联 网 ”。 这 有 两 层 意 思 : 第 一 ， 物 联网 的 核心 和 基础 仍然 是 互联 网 ， 是 
在 互联 网 基础 之 上 的 延伸 和 扩展 的 一 种 网 络 ; 第 二 ， 其 用 户 疗 延 伸 和 扩展 到 了 任何 物品 与 物品 
之 间 ， 进 行 信息 交换 和 通信 。 因 此 ， 物 联网 的 定义 是 通过 射频 识别 (REFID) 装 置 、 红 外 感应 艇 、 
全 球 定 位 系统 、 激 光 扫 描 器 等 信息 传 感 设 备 ， 按 约定 的 协议 ， 把 任何 物品 与 互联 网 相连 接 ， 进 
行 信息 交换 和 通信 ， 以 实现 智能 化 识别 、 定 位 、 跟 踪 、 监 控 和 管理 的 一 种 网 络 。 明 确 的 物 联网 
概念 最 早 是 由 美国 肪 省 理工 大 学 Auto-ID 实验 室 在 1999 年 提出 的 ， 最 初 是 为 了 提高 基于 互联 
网 流通 领域 信息 化 水 平 而 设计 的 。 物 联网 这 个 概念 可 以 认为 对 一 类 应 用 的 称呼 ， 物 联网 与 云 计 
算 技术 的 关系 从 定义 上 讲 应 用 与 平台 的 关系 。 

物 联网 系统 需要 大 量 的 存储 资源 来 保存 数据 ， 同时 也 需要 计算 资源 来 处 理 和 分 析 数 据 ， 当 
前 我 们 所 指 的 物 联 网 传感器 连接 呈现 出 以 下 的 特点 : 

© ”连接 传 感 右 种 类 多 样 ; 
© ”连接 的 传 感 莫 数量 众多 ; 
@ 连接 的 传感器 地 域 广大 。 

这 些 特点 都 会 导致 物 联网 系统 会 在 运行 过 程 中 产生 大 量 的 数据 ， 物 联网 的 出 现 使 数据 的 
产生 实现 目 动 化 ， 大 量 的 传感器 数据 不 断 地 在 各 个 监控 点 产生 ， 特 别 是 现在 信息 采样 的 空间 
密度 和 时 间 密 度 不 断 增加 ， 视 频 信息 的 大 量 使 用 ， 这 些 因素 也 是 目前 导致 大 数据 概念 出 现 的 
原因 之 一 。 

物 联 网 的 产业 链 可 以 细 分 为 标识 、 感 知 、 处 理 和 信息 传送 4 个 环节 ， 每 个 环节 的 关键 技术 
分 别 为 RFID 、 传 感 器 、 智 能 心 片 和 电信 运营 商 的 无 线 传输 网 络 。 云 计算 的 出 现 使 物 联 网 在 互 
联网 基础 之 上 延伸 和 发 展 成 为 可 能 。 物 联网 中 的 物 ， 在 云 计 算 模 式 中 ， 它 相当 于 是 带 上 传 感 右 
的 云 终 端 ， 与 上 网 本 、 手 机 等 终端 功能 相同 。 这 也 是 物 联 网 在 云 计算 日 渐 成 熟 的 今天 ， 才 能 重 
新 被 激活 的 原因 之 一 。 

新 的 平台 必定 造就 新 的 物 联网 ， 把 云 计算 的 特点 与 物 联 网 的 实际 相 结 合 ， 云 计算 技术 将 给 
物 联 网 带 来 以 下 深刻 的 变革 。 

( 1) 解决 服务 器 节点 的 不 可 靠 性 问题 ， 最 大 限度 地 降低 服务 器 的 出 错 率 。 近 年 来 ， 随 
着 物 联网 从 局 域 网 走向 城 域 网 ， 其 感知 信息 也 呈 指 数 型 增长 ， 同 时 导致 服务 器 端的 服务 露 
数目 呈 线 性 增长 。 服 务 器 数目 多 了 ， 节 点 出 错 的 概率 肯定 也 随 之 变 大 ， 更 何况 服务 器 并 不 
便宜 。 如 今 商 场 如 战场 ， 节 点 不 可 信和 问题 使 得 一 般 的 中 小 型 公司 要 想 独 目 撑 起 一 片 属于 目 
己 的 天 空 ， 那 是 难 上 加 难 。 

而 在 云 计算 模式 中 , 因为 “ 云 " 有 成 干 上 万 、 甚 至 上 百 万 台 服 务 右 , 即使 同时 宕 掉 儿 台 ，“ 云 ” 
中 的 服务 器 也 可 以 在 很 短 的 时 间 内 ， 利 用 元 余 备 份 、 热 拔 插 、RAID 等 技术 快速 恢复 服务 。 

例如 ，Google 公司 不 再 是 一 味 地 追求 单个 服务 器 的 性 能 参数 ， 而 是 更 多 地 关注 如 何 用 堆积 
如 山 的 集群 来 欢 补 单个 服务 右 的 性 能 不 足 。 在 对 单个 服务 器 性 能 要 求 的 降低 的 同时 也 减少 了 相 
应 的 资金 需求 。 至 于 对 于 宕 机 的 服务 器 ，Google 采用 的 是 直接 换 掉 。 云 计算 集群 的 加 入 ， 能 够 
保证 物 联网 真正 实现 无 间断 的 安全 服务 。 

(2) 低 成 本 的 投入 可 以 换 来 高 收益 ， 让 限制 访问 服务 器 次 数 的 瓶颈 成 为 历史 。 服 务 器 相关 


硬件 资源 的 承受 能 力 都 是 有 一 定 范围 的 ， 当 服务 器 同时 响应 的 数量 超过 目 喘 的 限制 时 ， 服 务 器 
就 会 月 溃 。 而 随 着 物 联 网 领域 的 逐步 扩大 ， 物 的 数量 呈 几 何 级 增长 ， 而 物 的 信息 也 呈 爆 炸 性 增 
长 ， 随 之 而 来 的 访问 量 空 前 高 痰 。 

因此 ,为 了 让 服务 器 能 安全 可 靠 地 运行 ,只 有 不 断 增加 服务 右 的 数量 和 购买 更 高 级 的 服务 
器 ， 或 者 限制 同时 访问 服务 器 的 数量 。 然 而 这 两 种 方法 都 存在 致命 的 缺点 : 服务 器 的 增加 ， 虽 
能 通过 大 量 的 经 费 投 入 解决 一 时 的 访问 压力 ， 但 设备 的 浪费 却 是 巨大 的 。 而 采用 云 计 算 技术 ， 
可 以 动态 地 增加 或 减少 云 模式 中 服务 器 的 数量 和 提高 质量 ， 这 样 做 不 仅 可 以 解决 访问 的 压力 ， 
还 经 济 实惠 。 

(3 ) 让 物 联 网 从 局 域 网 走向 城 域 网 甚至 是 广域网 ， 在 更 /的 范围 内 进行 信息 资源 共享 。 局 
域 网 中 的 物 联 网 就 像 是 一 个 超市 ， 物 联网 中 的 物 就 是 超市 中 的 商品 ， 商 品 离开 这 个 超市 到 另外 
的 超市 ， 尽 管 它 还 存在 ， 但 服务 器 端 内 该 物体 的 信息 会 随 着 它 的 离开 而 消失 。 其 信息 共享 的 局 
限 性 不 言 而 喻 。 

但 通过 云 计 算 技 术 ， 物 联网 的 信息 直接 存放 在 Internet 的 “ 云 ” 上， 而 每 个 “ 云 ” 有 几 百 
万 台 服 务 器 分 布 在 全 国 甚至 是 全 球 的 各 个 角落 ， 无 论 这 个 物 走 到 哪儿 ， 只 要 具备 传感器 芯片 ， 
“ 云 ” 中 最近 的 服务 器 就 能 收 到 它 的 信息 ， 并 对 其 信息 进行 定位 、 分 析 、 存 储 、 更 新 。 用 户 的 地 
理 位 置 也 不 再 受 限 制 ， 只 要 通过 Internet 就 能 共享 物体 的 最 新 信息 。 

(4) 将 云 计 算 与 数据 挖掘 技术 相 结合 ， 增 强 物 联网 的 数据 处 理 能 力 ， 快 速 做 出 商业 抉择 。 伴 
随 着 物 联 网 应 用 的 不 断 扩 大 ,业务 应 用 范围 从 单一 领域 发 展 到 所 有 的 各 行 各 业 ， 信 息 处 理 方式 从 
分 散 到 集中 ， 产 生 了 大 量 的 业务 数据 。 

运用 云 计算 技术 , 由 云 模 式 下 的 儿 白 万 台 的 计算 机 集群 提供 强大 的 计算 能 旋 , 并 通过 庞大 的 
计算 机 处 理 程序 自动 将 任务 分 解 成 若干 个 较 小 的 子 任务 , 快速 地 对 海量 业务 数据 进行 分 析 、 处 理 、 
存储 、 挖 据 ， 在 短 时 间 内 提取 出 有 价值 的 信息 ， 为 物 联网 的 商业 决策 服务 。 这 也 是 将 云 计 算 技术 
与 数据 挖 据 技 术 相 结合 给 物 联 网 带 来 的 一 大 竞争 优势 。 

任何 技术 从 萌芽 到 成 型 ， 再 到 成 熟 ， 都 需要 经 历 一 个 过 程 。 云 计算 技术 作为 一 项 有 着 广泛 
应 用 前 景 的 新 兴 前 沿 技术 ， 尚 处 于 成 型 阶段 ， 目 然 也 面临 着 一 些 问 题 。 

首先 是 标准 化 问题 。 虽 然 云 平台 解决 的 问题 一 样 ， 染 构 一 样 ， 但 基于 不 同 的 技术 、 应 用 ， 
其 细节 很 可 能 完全 不 同 , 从 而 导致 平台 与 平台 之 间 可 能 无 法 互通 。 目 前 在 Google, EMC, Amazon 
等 云 平台 上 都 存在 许多 云 技术 打造 的 应 用 程序 ， 却 无 法 跨 平 台 运行 。 这 样 一 来 ， 物 联网 的 网 与 
网 之 间 的 局 限 性 依旧 存在 。 

其 次 是 安全 问题 。 物 联网 从 专用 网 到 互联 网 ， 虽 然 信息 分 析 、 处 理 得 到 了 质 的 提升 ， 但 同 
时 网 络 安全 性 也 遇 到 了 前 所 未 有 的 挑战 。Internet 上 的 各 种 病毒 、 木 马 以 及 恶意 入 侵 程序 让 架 于 
云 计 算 平 台 上 的 物 联网 处 于 非 彰 尴 炊 的 境地 。 

云 计 算 作为 互联 网 全 球 统一 化 的 必然 趋势 , 其 统一 虚拟 的 基础 设施 平台 , 方便 透明 的 上 层 调 
用 接口 ， 计 算 信 息 的 资源 共享 等 特点 ， 完 全 是 在 充分 考虑 了 各 行 各 业 的 整合 需求 下 才 形 成 的 拯救 
互联 网 的 诡 亚 方 丹 。 尽 管 ， 目 前 云 计算 的 应 用 还 处 在 探索 测试 阶段 ， 但 随 着 物 联网 界 对 云 计 算 技 
术 的 关注 以 及 云 计算 技术 的 日 趋 成 熟 ， 云 计算 技术 在 物 联 网 中 的 广泛 应 用 指日可待 。 
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2.3 ”一致 性 哈 希 算法 


2.3.1 一 致 性 哈 希 算法 的 基本 原理 


主 从 结构 的 云 计 算 系 统 负载 的 均衡 往往 通过 主 市 点 来 完成 ,而 一 些 对 等 结构 的 云 计算 系统 
可 以 采用 一 致 性 哈 硕 算 法 来 实现 负载 的 均衡 ， 这 种 模式 避免 了 主 从 结构 云 计 算 系 统 对 主 节点 失 
效 的 敏感 。 

哈 斋 算 法 是 一 种 从 黎 蕊 值 范围 到 紧密 值 范围 的 映射 方法 ,在 存储 和 计算 定位 时 可 以 被 看 作 
是 一 种 路 由 算法 ， 通 过 这 种 路 由 算法 文件 块 能 被 唯一 地 定位 到 一 个 市 点 的 位 置 。 传 统 的 哈 希 算 
法 的 容错 性 和 扩展 性 都 不 好 ， 无 法 有 效 地 适应 面向 数据 系统 节点 的 动态 变化 。1997 年 David 
Karger 提出 了 一 致 性 哈 希 算法 来 定位 数据 ， 实 现 了 云 计 算 系 统 在 节点 变化 时 的 单调 性 ， 实 现 了 
较 小 的 数据 迁移 代价 。 Amazon 的 云 存储 系统 Dynamo 改进 了 基本 的 一 致 性 哈 希 算法 , 引入 了 虚 
拟 节 点 , 使 系统 具有 更 加 均衡 地 存储 定位 能 力 。Facebook 开发 的 Cassandra 系统 也 是 采用 了 一 致 
性 哈 希 算法 的 存储 管理 算法 。 一 致 性 哈 希 算法 及 其 改进 算法 已 成 为 分 布 式 存储 领域 的 一 个 标准 
技术 。 使 用 一 致 性 哈 希 算法 的 系统 无 需 中 心 节 点 来 维护 元 数据 ， 解 决 了 元 数据 服务 器 的 单 点 失 
效 和 性 能 瓶颈 问题 ， 但 对 于 系统 的 负载 均衡 和 调度 节点 的 有 效 性 提出 了 更 高 的 要 求 。 

传统 的 哈 希 算法 在 节点 数 没有 变化 时 能 很 好 地 实现 数据 的 分 配 , 但 当 节点 数 发 生变 化 时 传 
统 的 哈 希 算法 将 对 数据 进行 重新 的 分 配 ， 这 样 系统 恢复 的 代价 就 非常 大 。 例 如 系统 中 市 点 数 为 
和 NN， 传统 的 哈 希 算法 的 计算 方法 为 HASH (Key) % N, 4 入 发 生变 化 时 整个 哈 希 的 分 配 次 序 
将 完全 重新 生成 。 云 计算 系统 通常 涉及 大 量 的 节点 ， 市 点 的 失效 和 加 入 都 是 非 弟 常见 的 ， 传 统 
的 哈 希 算法 无 法 满足 这 种 节点 数目 频 系 变 化 的 要 求 。 

一 致 性 哈 希 的 设计 目标 就 是 解决 节点 频繁 变化 时 的 任务 分 配 问 题 ， 一 致 性 哈 希 将 整个 哈 希 
值 空间 组 织 成 一 个 虚拟 圆 环 ( 如 图 2.3 所 示 ) ， 假 设 某 哈 希 函 数 H 的 值 空间 为 0~ 2 -1D， 即 
32 位 无 符号 整数 ， 将 各 节点 用 H 函数 哈 希 ， 可 以 将 服务 器 的 IP 或 主机 名 作为 关键 字 哈 希 ， 这 
样 每 个 节点 就 能 确定 其 在 哈 希 环 上 的 位 置 , 将 Key 用 H 函数 映射 到 哈 希 空间 的 一 个 值 , 沿 该 值 
向 后 ， 将 遇 到 的 第 一 个 节点 作为 处 理 节点 ， 若 某 个 Key 的 HASH 值 落 在 nodel 和 node2 各 目 
HASH 值 的 中 间 位 置 ， 则 此 Key 对 应 的 业务 请 求 由 node2 处 理 。 当 增加 服务 节点 时 ， 只 会 影响 
与 之 相 邻 的 某 一 节点 ， 其 他 节点 不 受 影响 。 如 果 在 node2 和 node4 之 间 增 加 一 个 aode5， 则 只 
有 node4 处 理 的 部 分 Key (HASH 值 落 在 node2 之 后 、node5 之 前 的 那 部 分 Key ) 变 为 由 node5 
来 处 理 ， 其 他 节点 处 理 的 Key 不 变 。 如 果 节 点 数 不 多 ， 则 将 这 些 节 点 映射 到 值 空 间 之 后 ， 分 布 
可 能 会 很 不 均匀 ， 必 然 会 造成 个 别 节 点 处 理 的 Key 数量 远大 于 其 他 节点 ， 这 就 起 不 到 负载 均衡 
的 效果 。 这 可 以 通过 引入 虚拟 节点 的 方式 解决 ， 即 对 每 一 个 节点 计算 多 个 HASH 值 ， 尽 量 保证 
这 些 HASH 值 比较 均匀 地 分 布 在 值 空间 中 。 当 根据 Key BIKA, REIMER, Ala 
再 根据 虚拟 节点 查找 对 应 的 真实 节点 。 
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图 2.3 一 致 性 哈 希 原理 


简单 来 说 ,一致 性 哈 希 算法 的 基本 实现 过 程 为 : 对 Key 值 首 先 用 MDS 算法 将 其 变换 为 一 
个 长 度 32 位 的 十 六 进 制 数 值 ， 再 用 这 个 数值 对 2 取 模 ， 将 其 映射 到 由 2 个 值 构成 的 环 状 哈 希 
空间 ， 对 节点 也 以 相同 的 方法 映射 到 环 状 哈 硕 空间 ， 最 后 Key 值 会 在 环 状 哈 希 空间 中 找到 大 于 
它 的 最 小 的 方 点 值 作为 路 由 值 。 

一 致 性 哈 希 算法 的 采用 使 集群 系统 在 进行 任务 划分 时 不 再 依赖 某 些 管理 节点 来 维护 , 并 且 
在 节点 数据 发 生变 化 时 能 够 以 最 小 的 代价 实现 任务 的 再 分 配 ， 这 一 优点 特别 符合 云 计 算 系 统 资 
源 池 弹性 化 的 要 求 ， 因 此 一 致 性 哈 希 算法 成 为 了 实现 无 主 节点 对 等 结构 集群 的 一 种 标准 算法 。 


2.3.2 ”一 致 性 哈 希 算法 中 计算 和 存储 位 置 的 一 致 性 


基于 一 致 性 哈 希 的 原理 可 以 给 出 计算 和 存储 的 一 致 性 哈 希 方法 ， 从 而 使 计算 能 在 数据 存储 
节点 发 起 。 对 于 多 用 户 分 布 式 存储 系统 来 说 : “用 户 名 + 逮 辑 存储 位 置 ” 所 构成 的 字符 串 在 系 
统 中 是 惟一 确定 的 ， 如 属于 用 户 wang， 逻 辑 存 储 位 置 为 test/testl.txt 的 文件 所 构成 的 字符 串 
“wang/test/test1.txt” 在 系统 中 一 定 是 惟一 的 ,同时 某 一 个 计算 任务 需要 对 test1.txt 这 个 文件 进 
行 操 作 和 处 理 ， 则 它 一 定 会 在 程序 中 指定 用 户 名 和 逮 辑 位 置 ， 因 此 存储 和 计算 testl.txt 都 利用 
相同 的 一 致 性 哈 希 算法 就 能 保证 计算 被 分 配 的 节点 和 当时 存储 test1.txt 文件 时 被 分 配 的 节点 是 
同一 个 节点 

现在 以 下 面 这 个 应 用 场景 为 例 ， 说 明 一 致 性 哈 希 算法 实现 计算 和 存储 位 置 一 致 性 的 方法 : 

(1) 面向 相对 “小 ”数据 进行 处 理 ， 典 型 的 文件 大 小 为 100MB 之 内 ， 通 常 不 涉及 对 文件 
的 分 块 问 题 ， 这 一 点 与 MapReduce 框 染 不 同 ; 

(2) 待 处 理 数据 之 间 没 有 强 的 关联 性 ， 数 据 块 之 间 的 处 理 是 独立 的 ， 数 据 处 理 是 不 需要 进 
行 数据 块 之 闻 的 消息 通信 ， 保 证 节点 间 发 起 的 计算 是 低 耦 合 的 计算 任务 ; 

(3 ) 程序 片 的 典型 大 小 远 小 于 需要 处 理 的 数据 大 小 ， 计 算 程 序 片 本 质 上 也 可 以 看 作 是 一 种 
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特殊 的 数据 ， 这 一 假设 在 大 多 效 情 况 下 是 成 立 的 。 

(4) 数据 的 存储 先 于 计算 发 生 。 

根据 一 致 性 哈 希 算法 的 基本 原理 在 面向 数据 的 分 布 式 系统 中 计算 和 存储 位 置 一 致 性 方法 如 
2.4 所 示 ， 其 主要 步骤 如 下 : 

D 将 服务 器 节点 以 了 P 地 址 作为 Key 值 ， 以 一 致 性 哈 希 方法 映射 到 喻 希 环 上 ; 

@ 在 数据 存储 时 以 ( 用 户 名 + 文件 逻辑 位 置 ) 作为 唯一 的 Key fa, 映射 到 哈 希 环 上 ， 并 顺 
时 针 找 到 离 自 己 哈 希 值 最 近 的 市 点 作为 实际 数据 存储 的 位 置 ; 

(3 在 发 起 计算 任务 时 提取 计算 任务 所 要 操作 的 数据 对 应 的 (用户 名 + 文件 逻辑 位 置 ) 值 作 
为 Key 值 , 映射 到 哈 希 环 上 ， 并 顺 时 针 找 到 离 目 己 哈 希 值 最 近 的 节点 注入 程序 并 发 起 计算 的 节 
点 。 由 于 相同 用 户 的 相同 数据 〈 用户 名 + 文件 逻辑 位 置 ) 其 在 一 致 性 哈 希 算法 作用 下 一 定 会 
被 分 配 到 相同 的 节点 ， 从 而 保证 了 十 算 所 发 起 的 节点 刚好 就 是 计算 所 需要 处 理 的 数据 所 在 的 节 
Fo 

在 这 种 算法 的 支持 下 只 要 计算 程序 片 需 要 处 理 的 数据 逻辑 位 置 是 确定 的 ， 系 统 就 会 将 计算 
程序 片 路 由 到 数据 存储 位 置 所 在 的 廊 点 ， 这 时 方 扣 同 的 负载 均衡 性 是 由 数据 分 布 的 均衡 化 来 实 


现 的 。 
数据 片 哈 希 过 程 计算 程序 片 哈 希 过 程 


-一 计算 程序 片 


数据 片 i ee 
dt in Key 值 为 “用 户 名 + 逻辑 位 置 ” 


Key 值 为 “用 户 名 + 逻辑 位 置 ” 
2.4 ”一致 性 哈 希 算法 实现 计算 与 数据 的 位 置 一 致 性 


一 致 性 哈 希 算法 可 以 实现 无 中 心 节点 的 计算 和 数据 定位 , 使 计算 可 以 惟一 地 找到 其 所 要 处 
理 和 分 析 的 数据 ， 使 计算 能 最 大 可 能 地 在 数据 存储 的 位 置 发 起 ， 从 而 市 约 大 量 的 网 络 资源 ， 同 
时 避免 了 系统 单 点 失效 造成 的 不 良 影响 。 利 用 一 致 性 哈 希 方法 在 面 对 海 量 文 件 时 系统 不 用 维护 
一 个 庞大 的 元 数据 库 用 于 保存 文件 的 存储 信息 ， 计 算 寻 找 数据 的 速度 非常 直接 ， 路 由 的 算法 复 
杂 度 非常 低 。 需 要 存储 大 量 Key—Value 的 Amazon 的 电子 商务 应 用 和 Facebook 的 社交 网 站 应 用 
都 采用 了 一 致 性 哈 希 算法 。 


2.4 非 关 系 型 数据 库 


2.4.1 从 关系 型 数据 库 到 非 关系 型 数据 库 


关系 型 数据 库 (Relational Database ) 技术 是 1970 年 埃 德 加 科 德 (Edgar Frank Codd ) 
所 提出 的 ， 关 系 型 数据 库 克 服 了 网 络 数据 库 模 型 和 层次 数据 库 模 型 的 一 些 弱 点 。1981 年 埃 德 
加 科 德 因 在 关系 型 数据 库 方 面 的 贡献 获得 了 图 灵 奖 ， 因 此 埃 德 加 科 德 也 被 称 为 “关系 数 
据 库 之 父 ”( 见 图 2.5 ) 。 关 系 型 数据 库 几 十 年 来 一 直 是 统治 数据 库 技术 的 核心 标准 ， 目 前 
主要 的 数据 库 系 统 仍然 采用 的 是 关系 型 数据 库 。 埃 德 加 ， 科 德 发 明 的 关系 数据 库 不 仅 有 一 个 
坚实 的 数学 基础 ， 即 关系 代数 ， 而 且 埃 德 加 ' 科 德 从 关系 代数 的 基础 推 滨 出 一 套 关系 数据 库 
的 理论 。 这 个 理论 包括 一 系列 “范式 ”, 可 以 用 来 检查 数据 库 是 否 有 元 余 性 和 不 一 致 等 性 质 。 
另外 ， 埃 德 加 . 科 德 也 在 关系 代数 基础 之 上 定义 了 一 系列 通用 的 数据 基本 操作 。 但 云 计 算 和 
大 数据 技术 的 出 现 逐 步 动 播 了 关系 型 数据 库 的 统治 地 位 。 


2.5 ”关系 数据 库 之 父 一 一 Edgar Frank Codd 


随 着 信息 产业 的 发 展 ， 特 别 是 在 云 计 算 和 互联 网 Web 2.0 莲 勃 发 展 的 今天 ， 数 据 库 系统 成 
为 了 IT 架构 中 信息 存储 和 处 理 的 必要 组 成 部 分 ，Web 2.0 是 相对 Web 1.0 的 新 的 一 类 互联 网 
应 用 的 统称 。Web 1.0 的 主要 特点 在 于 用 户 通过 浏览 器 获取 信息 。Web 2.0 则 更 注重 用 户 的 交 
互 作 用 ， 用 户 既 是 网 站 内 容 的 浏览 者 ， 也 是 网 站 内 容 的 制造 者 。 所 谓 网 站 内 容 的 制造 者 是 说 互 
联网 上 的 每 一 个 用 户 不 再 仅仅 是 互联 网 的 读者 ， 同 时 也 成 为 互联 网 的 作者 ; 不 再 仅仅 是 在 互联 
网 上 冲浪 , 同时 也 成 为 波浪 制造 者 ; 在 模式 上 由 单纯 的 “ 读 ” 向 “ 写 ” 以 及 “共同 建设 ”发 展 ; 
由 被 动 地 接收 互联 网 信息 向 主动 创造 互联 网 信息 发 展 ， 从 而 更 加 人 性 化 。 云 计算 资源 网 络 化 的 
提供 方式 更 是 为 Web 2.0 发 展 提供 了 无 限 的 想象 空间 ， 从 这 一 点 看 我 们 已 很 难 将 这 两 者 完全 区 
分 开 来 。 云 计 算 技 术 对 数据 库 高 并 发 读 / 写 的 需求 , 对 海量 数据 的 高 效率 存储 和 访问 的 需求 ,对 
数据 库 的 高 可 扩展 性 和 高 可 用 性 的 需求 都 让 传统 关系 型 数据 库 系 统 显得 力不从心 。 同 时 关系 型 
数据 库 技 术 中 的 一 些 核心 技术 要 求 如 : 数据 库 事 务 一 致 性 需求 ， 数 据 库 的 写实 时 性 和 读 实 时 性 


PATHE PUT Hho ae 


需求 ， 对 复杂 的 SQL 查询 ， 特 别 是 多 表 关 联 查询 的 需求 等 在 Web 2.0 技术 中 却 并 不 是 必要 的 ， 
而 且 系统 为 此 付出 了 较 大 的 代价 。 

关系 型 数据 库 技 术 的 出 现 是 云 计算 、 大 数据 技术 的 必然 需求 ， 非 关系 型 数据 库 可 以 被 称 为 
一 项 数据 库 的 章 命 ， 从 2009 年 开始 , 在 云 计 算 的 发 展 和 开源 社区 的 推动 下 , 非 关系 型 数据 库 的 
发 展 显示 了 较 强 的 活力 ， 也 得 到 了 越 来 越 多 的 用 户 关 注 和 认可 。 目 前 已 经 有 多 家 大 型 IT 企业 
已 经 采用 非 关 系 型 数据 库 作 为 重要 的 生产 系统 基础 支撑 ， 比 如 Google 的 BigTable，Amazon 的 
Dynamo， 以 及 Digg, Twitter, Facebook 在 使 用 的 Cassandra 等 。 


2.4.2” 非 关系 型 数据 库 的 定义 


非 关系 型 数据 库 , 又 被 称 为 NoSQL( Not Only SQL ), 意 为 不 仅仅 是 SQLG Structured Query 
Language, 结构 化 查询 语言 ), 据 维基 百科 介绍 , NoSQL 最 早出 现 于 1998 年 ,是 由 Carlo Strozzi 
最 早 开 发 的 一 个 轻 量 、 开 源 、 不 兼容 SQL 功能 的 关系 型 数据 库 。2009 年 ,在 一 次 关于 分 布 式 
开源 数据 库 的 讨论 会 上 ， 再 次 提出 了 NoSQL 的 概念 ， 此 时 NoSQL 主要 是 指 非 关 系 型 、 分 布 
式 、 不 提供 ACID (数据库 事务 处 理 的 四 个 基本 要 素 ) 的 数据 库 设 计 模式 。 同 年 ， 在 亚 特 兰 
大 举行 的 “NO:SQL(east)” 讨 论 会 上 ， 对 NoSQL 最 普遍 的 定义 是 “ 非 关联 型 的 ”， 强 调 
Key 一 Value 存储 和 文档 数据 库 的 优点 ， 而 不 是 单纯 地 反对 RDBMS， 至 此 ，NoSQL 开始 正式 
出 现在 世人 面前 。 


2.4.3 ” 非 关系 型 数据 库 的 分 类 


NoSQL 描述 的 是 大 量 结构 化 数据 存储 方法 的 集合 ， 根 据 结构 化 方法 以 及 应 用 场合 的 不 同 ， 
主要 可 以 将 NoSQL 分 为 以 下 几 类 。 

(1) Column—Oriented, 

面向 检索 的 列 式 存储 ， 其 存储 结构 为 列 式 结构 ， 不 同 于 关系 型 数据 库 的 行 式 结构 ， 这 种 
结构 会 让 很 多 统计 聚合 操作 更 简单 方便 ， 使 系统 具有 较 高 的 可 扩展 性 。 这 类 数据 库 还 可 以 适 
应 海量 数据 的 增加 以 及 数据 结构 的 变化 ， 这 个 特点 与 云 计算 所 需 的 相关 需求 是 相符 合 的 。 比 
如 Google Appengine 的 Big Table 以 及 相同 设计 理念 的 Hadoop 子 系统 HaBase 就 是 这 类 的 典型 
代表 。 需 要 特别 指出 的 是 ，BigTable 特别 适用 于 MapReduce 处 理 ， 这 对 于 云 计 算 的 发 展 有 很 
高 的 适应 性 。 

(2) Key—Value. 

面向 高 性 能 并 发 读 / 写 的 缓存 存储 ， 其 结构 类 似 于 数据 结构 中 的 Hash 表 , 每 个 Key 分 别 对 
应 一 个 Value， 能 够 提供 非常 快 的 查询 速度 、 大 数据 存放 量 和 高 并 发 操作 ， 非 常 适合 通过 主键 
对 数据 进行 查询 和 修改 等 操作 。Key 一 Value 数据 库 的 主要 特点 是 具有 极 高 的 并 发 读 / 写 性 能 , 非 
常 适应 作为 缓存 系统 使 用 。MemcacheDB Berkeley DB, Redis, Flare 就 是 Key-Value 数据 库 的 
代表 。 


( 3) Document—Oriented. 

面向 海量 数据 访问 的 文档 存储 ， 这 类 存储 的 结构 与 Key-Value 非常 相似 ， 也 是 每 个 Key 分 
别 对 应 一 个 Value， 但 是 这 个 Value 主要 以 JSON ( JavaScript Object Notations ) 或 者 XML 等 格 
式 的 文档 来 进行 存储 。 这 种 存储 方式 可 以 很 方便 地 被 面向 对 象 的 语言 所 使 用 。 这 类 数据 库 可 以 
在 海量 的 数据 中 快速 查询 数据 ， 典 型 代表 为 MongoDB、CouchDB 等 。 

NoSQL 具有 扩展 简单 、 高 并 发 、 高 稳定 性 、 成 本 低廉 等 优势 ， 也 存在 一 些 问题 。 例 如 ， 
NoSQL 暂 不 提供 对 SQL 的 支持 ， 会 造成 开发 人 员 的 额外 学 习 成 本 ; NoSQL 大 多 为 开源 软件 ， 
其 成 熟 度 与 商用 的 关系 型 数据 库 系统 相 比 有 差距 ; NoSql 的 架构 特性 决定 了 其 很 难保 证 数据 的 
完整 性 ， 适 合 在 一 些 特殊 的 应 用 场景 使 用 。 


2.5 “集群 高 速 通 信 标 准 InfiniBand 


集群 结构 是 云 计 算 系 统 的 基本 结构 之 一 , 在 集群 结构 中 节点 之 间 的 协调 和 数据 传送 一 般 都 
通过 消息 传递 机 制 进行 ， 在 传统 的 高 性 能 计算 系统 集群 内 部 的 网 络 通信 和 能力 成 为 了 影响 集群 计 
算 能 力 的 一 个 重要 因素 ， 由 于 受到 网 络 通信 速度 的 制约 甚至 提出 以 计算 换 通 信 的 编程 理念 。 云 
计算 系统 中 集群 的 规模 变 得 空前 巨大 ， 为 了 很 好 地 实现 集群 内 部 的 调度 和 协调 高 速 的 网 络 通信 
是 必 不 可 少 的 。InfiniBand 就 是 目前 较为 常见 的 一 种 高 速 集群 通信 协议 , 它 在 高 性 能 计算 领域 已 
得 到 广泛 的 应 用 。 

InfiniBand 是 一 种 全 新 、 功 能 强大 、 设 计 用 来 支持 Internet 基础 设施 I/O 互联 的 体系 结构 。 
InfiniBand 被 工业 界 的 顶级 公司 所 支持 , 执行 委员 会 成 员 包 括 : Compaq, Dell, Hewlett Packard, 
IBM, Intel, Microsoft 和 Sun. InfiniBand 行业 协会 成 员 总 计 超 过 220 个 。InfiniBand 被 主要 的 
OEM 服务 器 生产 商 所 支持 ， 用 来 作为 下 一 代 服 务 器 的 I/O 互联 标准 ， 是 第 一 个 高 性 能 的 机 箱 
内 部 IO 互联 方式 得 到 延伸 的 工业 标准 。InfiniBand 是 惟一 既 提供 机 箱 内 底板 互联 解决 方案 ， 
又 可 以 使 高 速 带宽 延伸 出 机 箱 外 部 的 互联 标准 ， 是 一 种 把 WO 和 系统 域 网 络 统一 起 来 的 标准 。 
与 其 他 商品 化 系统 域 网 络 不 同 , InfiniBand 网 络 首 先 由 行业 协会 制定 标准 , 然后 生产 商 根 据 标准 
制造 出 InfiniBand 设备 , 不 同 生 产 商 的 产品 要 求 具有 互 操 作 性 , 这 样 可 以 使 InfiniBand 产品 具有 
更 好 的 性 能 价格 比 。 

InfiniBand 是 在 1999 年 由 Future IO 和 NGIO 两 个 标准 整合 而 来 的 新 型 互联 技术 。 它 
将 复杂 的 VO 系统 与 CPU、 内 存 分 开 , 使 IO 子 系统 独立 ， 采 用 基于 包 交 换 的 高 速 串 行 
链 路 和 可 扩展 的 高 速 交 换 网 络 替 代 共 享 总 线 结构 , 提供 了 高 带宽 、 低 延迟 、 可 扩展 的 IO 互 
联 。 基 于 1/O 通路 共享 机 制 的 InfiniBand 提供 了 一 种 连接 计算 机 的 新 途径 ,采用 InfiniBand 
Zin, VO 不 再 是 服务 器 的 组 成 部 分 ， 这 时 远程 存储 设备 、LMO 设备 和 服务 器 之 间 的 互联 
是 通过 InfiniBand 交换 机 和 路 由 器 完成 的 ， 克服 了 传统 的 共享 VO 总线 结 构 的 种 种 次 端 。 
InfiniBand 具有 传输 速率 高 、 传 输 距离 长 、 接 口 功 耗 低 以 及 噪声 容 限 高 等 特性 ， 单 线 传输 速 
率 为 2.5Gbps， 可 通过 2、4 或 12 线 并 行 来 扩展 通道 带宽 ， 上 峰值 带宽 高 达 2.5、10、30Gbps 
(ix. 4x, 12x 4). 
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InfinBand 既 可 作为 系统 内 部 互联 技术 又 可 作为 网 络 互 联 技术 ， 既 可 用 于 构造 高 性 能 刀片 
服务 器 (Blade Server) ， 又 可 用 于 构建 具有 高 可 用 性 和 高 可 伸缩 性 的 大 规模 集群 系统 ， 还 可 用 
于 构建 性 能 章 越 的 存储 区 域 网 络 SAN. 


2.6 云 计 算 大 数据 集群 的 目 组 织 特 性 


目 组 织 理论 产生 于 20 世纪 七 八 十 年 代 ,， 主要 研究 混沌 系统 在 随机 识别 时 系统 内 部 自发 
地 由 无 序 变 为 有 序 、 形 成 耗 散 结 构 的 过 程 ， 被 物理 、 化 学 、 生 物 学 、 社 会 学 、 心 理学 等 领 
域 广汉 研究 ， 其 中 一 些 研究 者 将 目 组 织 理论 的 思想 、 模 型 与 计算 机 科学 、 控 制 理 论 等 学 科 
相 结 合 ， 形 成 了 一 些 新 兴 的 研究 方向 。 目 组 织 算 法 按照 自 下 而 上 的 机 制 进 行 控制 ， 与 一 般 
采用 中 心 控制 算法 不 同 ， 在 进化 计算 、 任 务 分 配 、 网 络 自 组 织 演化 等 中 得 到 广泛 的 研究 。 
典型 的 进化 算法 〈 如 蚁 群 算法 ) 由 个 体 依据 简单 规则 ， 通 过 正 反馈 、 分 布 式 协 作 依 靠 群 体 
的 力量 自动 寻找 最 优 路 径 ; 任务 分 配 通过 多 智能 体 并 行 实现 在 离散 、 有 限 的 数据 结构 上 , 
寻找 一 个 满足 给 定 约束 条 件 并 使 目标 函数 值 达 到 最 大 或 最 小 的 解 ; 人 工 生命 进化 由 人 工分 
子 的 非 线性 相互 作用 引起 ， 是 远离 热平衡 的 相 变 ， 是 和 目 组 织 的 研究 方向 之 一 ; 网 络 自 组 织 
演化 研究 在 内 在 机 制 驱动 下 ， 网 络 目 行 从 简单 向 复杂 、 从 粗糙 向 细致 方向 发 展 ， 不 断 地 以 
局 部 优化 达到 全 局 优化 的 过 程 。 

研究 自 组 织 必然 要 提 到 耗 散 结 构 理 论 ， 比 利 时 科学 家 普 里 高 津 1969 年 提出 耗 散 结构 理论 
后 ， 这 一 理论 就 被 广泛 地 应 用 于 物理 、 生 物 、 化 学 乃至 社会 科学 的 研究 中 。 由 耗 散 结 构 引 出 的 
自 组 织 现 象 更 是 打破 了 人 类 对 目 然 的 常规 认识 。 耗 散 结 构 理 论 和 协同 学 从 宏观 、 微 观 及 两 者 的 
联系 上 回答 了 系统 自动 走向 有 序 结构 的 问题 ， 其 成 果 被 称 为 自 组 织 理 论 。 

出 现 自 组 织 现象 的 系统 必须 是 耗 散 结构 的 。 耗 散 结 构 理论 指出 : 一 个 开放 系统 处 在 远离 平 
衡 态 的 非 线性 区 域 ， 当 系统 的 茶 个 参数 变化 到 一 定 的 临界 值 时 ， 通 过 涨 落 ， 系 统 发 生 突变 ， 即 
非 平衡 相 变 ， 其 状态 可 能 从 原来 的 混乱 无 序 的 状态 转变 到 一 种 在 时 间 、 空 间 上 或 功能 上 有 序 的 
新 状态 ,这 种 新 的 有 序 结构 ( 耗 散 结 构 ) 需要 系统 不 断 地 与 外 界 交 换 物 质 和 能 量 才 能 得 以 维持 
并 保持 一 定 的 稳定 性 。 从 热力 学 的 观点 来 说 ，“ 目 组 织 ” 是 指 一 个 系统 通过 与 外 界 交换 物质 、 
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耗 散 结构 理论 指出 一 个 系统 要 形成 耗 散 结构 需要 满足 以 下 几 个 条 件 : 

(1) 系统 必须 是 开放 的 ; 

(2 ) 系统 需要 保持 远离 平衡 态 ; 

(3 ) 系统 内 部 存在 着 非 线性 相互 作用 ; 

(4) RATERS 

云 计 算 大 数据 集群 具有 数量 众多 的 节点 ， 对 比 耗 散 结 构 的 特点 ， 集 群 系统 本 身 满足 耗 散 结 
构 的 要 求 : 

(1) 云 计 算 大 数据 集群 系统 存在 着 与 系统 外 的 能 量 、 物 质 和 信息 的 交换 ， 满 足 耗 散 结构 的 
第 一 个 条 件 ; 


(2) 一 个 运营 良好 的 云 计算 大 数据 集群 系统 节点 负载 是 被 有 效 均 衡 的 ， 系 统 的 均衡 状态 是 
一 种 灶 值 较 低 的 远离 平 衔 态 的 状态 ， 满 足 耗 散 结 构 的 第 二 个 条 件 ; 

(3) 云 计 算 大 数据 集群 系统 是 一 种 具有 海量 节点 的 高 耦合 系统 ， 由 于 在 云 计算 系统 的 节点 
间 中 存在 着 频繁 的 计算 迁移 、 存 储 迁 移 、 计 算 备 份 、 存 储备 份 、 节 点 失效 处 理 等 节点 间 的 高 耦 
合 性 操作 ， 系 统 内 部 存在 着 大 量 的 相互 作用 ， 系 统 内 部 存在 着 非 线 性 相互 作用 ， 满 足 耗 散 结构 
的 第 三 个 条 件 ; 

(4) 云 计 算 大 数据 集群 系统 内 的 各 种 状态 参数 会 随 着 外 部 请 求 的 变化 出 现 涨 沙 ， 满 足 耗 散 
结构 的 第 四 个 条 件 。 

云 计 算 大 数据 集群 系统 的 抽象 描述 如 图 2.6 所 示 。 
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2.6 云 计算 大 数据 集群 系统 的 抽象 描述 


从 图 2.6 中 我 们 可 以 看 出 : 集群 系统 运行 时 需要 能 量 的 输入 , 同时 系统 内 的 一 部 分 能 量 
又 会 转变 为 热能 流出 系统 ; 集群 系统 需要 不 断 地 接受 系统 外 传 入 的 数据 并 进行 处 理 ， 同 时 
又 会 不 断 地 向 系统 外 传 出 数据 ; 集群 系统 由 于 具有 很 好 的 弹性 规模 且 又 非常 大 ， 所 以 节点 
的 增加 和 节点 的 失效 都 十 分 频繁 ; 同时 由 于 系统 内 部 又 存在 大 数据 迁移 、 计 算 迁 移 、 负 载 均 
衡 等 相互 作用 ， 因 此 可 以 把 集群 系统 抽象 地 描述 为 与 外 界 有 大 量 能 量 、 信 息 、 物 质 交 换 的 
开放 系统 。 

图 2.7 所 示 为 1000 个 节点 的 系统 在 不 同 的 负载 均衡 策略 下 在 参数 相 空间 和 动量 相 空 间 ( 相 
空间 的 基本 知识 见 本 书 10.3 节 ) 中 的 仿真 实现 结果 ， 体现 了 集群 系统 的 简单 自 组 织 现象 ， 图 中 
上 面 一 排 是 在 参数 相 空 间 的 仿真 结果 ， 下 面 一 排 是 动量 相 空 间 的 仿真 结果 。 


2.7 ”集群 系统 在 不 同 的 负载 均衡 策略 下 的 简单 自 组 织 特 性 


通常 参数 相 空 间 的 形态 能 反映 系统 的 静态 工作 情况 , 动量 相 空 间 的 形态 能 反映 系统 的 动态 
工作 情况 ， 从 图 2.7 中 可 以 看 出 使 用 不 同 负载 均衡 策略 的 集群 系统 通常 在 相 空间 中 都 处 于 广义 
AT BYE ASHIK, ARLE ARES SASS RE MEA AY, 
而 在 动量 相 空间 中 是 聚集 在 原点 附近 的 ， 云 计算 系统 在 相 空间 上 呈现 出 的 远离 平衡 态 形态 表明 
其 具备 自 组 织 出 现 的 基本 条 件 ， 同 时 也 说 明 应 用 相 空 间 方法 对 研究 云 计 算 系 统 的 自 组 织 特性 是 
有 效 的 。 


练习 题 


简 述 一 致 性 哈 希 算法 的 基本 原理 。 
2. 科学 研究 的 四 个 范式 是 . ; : : | 
3. 物 联 网 的 产业 链 可 以 分 为 AS ’ : 4 个 环节 。 
4. 非 关 系 型 数据 库 可 分 为 5 
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实现 物理 层 向 逻辑 层 的 变化 。 

从 这 个 定义 来 看 , 一 个 系统 采用 虚拟 化 技术 后 ， 其 对 外 表现 出 的 运动 方式 是 一 种 逻辑 化 的 
运动 方式 ， 而 不 是 真实 的 物理 运动 方式 。 所 以 采用 虚拟 化 技术 能 实现 对 物理 层 运动 复杂 性 的 屏 
责 ， 使 系统 对 外 运行 状态 呈现 出 简单 的 丈 辑 运行 状态 。 

2. 计算 机 学 科 中 的 虚拟 化 技术 

早期 的 计算 机 大 多 用 于 科学 计算 ， 计 算 机 不 仅 价 格 昂贵 ， 而 且 硬件 资源 的 利用 率 低 ， 
用 户 的 体验 效果 也 差强人意 ， 从 而 有 了 分 时 系统 的 提出 。 为 了 满足 分 时 系统 的 需求 ， 克 里 
斯 托 弗 人 Christopher Strachey ) 提 出 了 虚拟 化 的 概念 。 在 1959 年 召开 的 国际 信息 处 理 大 会 上 ， 
其 发 表 了 一 篇 名 为 《大 型 高 速 计算 机 中 的 时 间 共 享 》( Time Sharing in Large Fast Computers ) 
的 学 术 报告 ， 在 这 篇 文章 中 他 提出 了 虚拟 化 的 基本 概念 。 虚 拟 化 作为 一 个 概念 被 正式 提出 
就 是 从 此 时 开始 的 。 

在 随后 的 10 年 中 , 由 于 当时 工业 、 科 技 条 件 的 限制 , 计算 机 的 硬件 资源 是 相当 昂贵 的 , IBM 
在 1956 年 推出 的 首部 磁盘 储存 器 件 ， 总 容量 仅 5SMB ， 但 是 平均 每 MB 需 花 费 1 万 美元 。 这 远 
远 超 出 了 普通 大 众 的 承受 范围 ,严重 阻碍 了 人 们 对 计算 机 的 购买 力 。 为 了 使 昂贵 的 硬件 资源 得 
到 充分 利用 ,来 提高 自己 的 销售 额 ，IBM 最 早 发 明了 一 种 操作 系统 虚拟 机 技术 ,能够 让 用 户 在 
一 台 主 机 上 运行 多 个 操作 系统 , IBM 7044 计算 机 就 是 典型 的 代表 。 随 后 虚拟 化 技术 一 直 只 在 大 
型 机 上 应 用 ， 而 在 PC、 服 务 器 的 x86 平台 上 仍然 进展 缓慢 。 

随 着 科技 水 平 的 提高 ， 计 算 机 硬件 资源 的 价格 逐渐 降低 ， 从 20 世纪 90 年 代 未 开始 ，x86 
计算 机 由 于 其 成 本 低廉 渐渐 代 蔡 大 型 机 ， 为 了 抢占 市 场 的 份额 VMware 就 在 考虑 如 何 节 省 客 
户 的 开支 ， 来 提高 自己 产品 的 竞争 力 。 这 时 ,就 有 了 虚拟 化 技术 的 再 次 发 展 。 以 VMware 为 代 
表 的 虚拟 化 软件 产 商 率先 实施 了 以 虚拟 机 监视 器 为 中 心 的 软件 解决 方案 ， 为 虚拟 化 技术 在 x86 
计算 机 环境 的 发 展开 必 了 道路 。 

最 近 的 十 几 年 间 ， 诸 多 厂商 ( 如 微软 、Intel 公司 、AMD 公司 等 ) 都 开始 进行 虚拟 化 技术 
的 研究 。 为 了 与 VMware 展开 直接 的 竞争 , 微软 开发 了 Hyper—V 技术 。 微软 凭借 其 强大 的 技术 
支持 ， 成 为 VMware 竞争 小 企业 市 场 的 主要 对 手 。 同 时 ， 虚 拟 化 技术 的 飞速 发 展 也 引起 了 心 户 
厂商 的 重视 , Intel 公司 和 AMD 公司 在 2006 年 以 后 都 逐步 在 其 x86 处 理 咒 中 增加 了 硬件 虚拟 化 
功能 。 

2008 年 以 后 , 云 计算 技术 的 发 展 推动 了 虚拟 化 技术 成 为 研究 热点 ， 由 于 虚拟 化 技术 能 够 屏 
蔽 底层 的 硬件 环境 ， 充 分 利用 计算 机 的 软 硬 件 资源 ， 是 云 计 算 技术 的 重要 目标 之 一 ， 虚 拟 化 技 
术 成 为 切 分 型 云 计 算 技 术 的 核心 技术 。 虚 拟 化 对 云 计算 技术 的 发 展 产 生 重 大 意义 的 是 基于 x86 
架构 的 服务 器 虚拟 化 技术 。 


3.1.2 ”虚拟 化 的 描述 


现代 计算 机 系统 被 分 为 多 个 目下 而 上 的 层次 。 从 下 到 上 依次 是 裸 机 ( 底层 硬件 )、 操 作 系 统 ， 
操作 系统 提供 应 用 程序 编程 接口 及 运行 在 操作 系统 之 上 的 各 种 各 样 的 应 用 程序 。 虚 拟 化 技术 可 


以 在 这 些 不 同 层次 之 间 建 立 虚拟 化 层 ， 向 上 提供 与 真实 层次 相同 或 相近 的 功能 ， 向 下 只 需 知 过 
下 层 的 抽象 接口 ， 不 需要 知道 下 层 的 具体 实现 。 虚 拟 化 层 的 引入 ， 必 然 给 系统 之 来 一 定 的 性 能 
损耗 ， 构 建 、 维 护 虚 拟 化 层 也 会 增加 一 定 的 费用 。 

虚拟 化 涉及 的 领域 比较 多 ,虚拟 化 的 技术 在 不 断 发 展 ， 虚 拟 化 的 定义 也 在 不 断 发 展 中 。 维 
基 百 科 中 虚拟 化 的 描述 为 “在 计算 机 技术 中 ,虚拟 化 ( Virtualization ) 是 将 计算 机 物理 资源 如 服 
务 器 、 网 络 、 内 存 及 存储 等 子 以 抽象 、 转 换 后 呈现 出 来 ， 使 用 户 可 以 以 比 原本 的 组 态 更 好 的 方 
式 来 应 用 这 些 资源 。 这 些 资源 的 新 虚拟 部 分 是 不 受 现 有 资源 的 染 设 方式 、 地 域 或 物理 组 态 所 限 
制 的 ”。 

我 们 可 以 从 虚拟 化 的 对 象 、 过 程 及 其 要 达到 的 结果 方面 来 对 虚拟 化 进行 如 下 描述 。 

(1) WR: 计算 机 的 各 种 资源 ， 这 些 资源 包括 基础 设施 、 系 统 和 软件 。 

(2) 过 程 : 将 各 种 资源 进行 抽象 、 转 换 。 

(3) BR: 为 这 些 资源 提供 标准 的 接口 来 接收 输入 和 提供 输出 ， 使 用 户 能 以 更 好 的 方式 来 
应 用 这 些 资源 。 


3.1.3 ”虚拟 化 技术 的 优势 和 劣势 


1 .虚拟 化 技术 的 优势 

虚拟 化 技术 的 出 现 和 发 展 提高 了 资源 的 利用 率 ， 使 得 企业 能 以 更 低 的 成 本 获得 更 大 的 收 
益 。 从 总 体 上 而 言 ， 虚 拟 化 的 优势 体现 在 以 下 方面 。 

(1) 虚拟 化 技术 可 以 提高 资源 利用 率 。 

传统 的 IT 企业 为 每 一 项 业务 分 配 一 台 单独 的 服务 器 ， 服 务 器 的 实际 处 理 能 力 往往 远 超 服 
务 器 的 平均 负载 ， 使 得 服务 器 大 部 分 时 间 都 处 于 空闲 状态 ， 造 成 资源 的 浪费 。 而 虚拟 化 技术 可 
以 减少 必须 进行 管理 的 物理 资源 的 数量 ， 隐 藏 了 物理 资源 的 部 分 复杂 性 。 为 了 达到 资源 的 最 大 
利用 率 ， 虚 拟 化 还 把 一 组 硬件 资源 虚拟 化 为 多 组 硬件 资源 ， 并 动态 地 调整 空闲 资源 ， 减 小 服务 
器 的 规模 。 例 如 ，VMware 的 用 户 在 使 用 VMware 的 虚拟 基础 架构 解决 方案 之 后 服务 器 的 利用 
率 通常 可 由 原先 的 5% ~ 15% 提 升 到 60% ~ 80%。 

(2 ) 提供 相互 隔离 、 高 效 的 应 用 执行 环境 。 

虚拟 化 技术 能 够 实现 较 简 单 的 共享 机 制 无 法 实现 的 隔离 和 划分 ， 从 而 对 数据 和 服务 进行 可 
控 和 安全 的 访问 。 例 如 ， 用 户 可 以 在 一 台 计 算 机 上 模拟 多 个 不 同 、 相 互 之 间 独 立 的 操作 系统 ， 
这 些 虚拟 的 操作 系统 可 以 是 Windows 或 Linux 系统 。 其 中 的 一 个 或 多 个 子 系统 遭受 攻击 而 骨 溃 
时 ， 不 会 对 其 他 系统 造成 影响 。 在 使 用 备份 机 制 后 ， 受 到 攻击 的 子 系统 可 以 快速 恢复 。 

(3 ) 虚拟 化 可 以 简化 资源 和 资源 的 管理 。 

计算 机 有 硬盘 、 磁 盘 等 硬件 资源 和 Web 服务 等 软件 资源 。 用 户 对 计算 机 资源 进行 访问 是 
通过 标准 接口 来 进行 的 。 使 用 标准 接口 的 好 处 是 用 户 不 用 知道 虚拟 资源 的 具体 实现 。 底 层 的 基 
础 设施 发 生变 化 时 ， 只 要 标准 接口 没有 发 生变 化 ， 用 户 基本 上 感受 不 到 这 种 变化 。 这 是 因为 ， 
与 用 户 直 接 接触 的 是 标准 接口 ， 虽 然 底层 的 具体 实现 发 生 改变 ， 但 是 用 户 与 虚拟 资源 进行 交互 
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的 方式 并 没有 改变 。 

传统 的 IT 服务 器 资源 是 硬件 相对 独立 的 个 体 , 对 每 一 种 资源 都 要 进行 相应 的 维护 和 升级 ， 
会 耗费 大 量 的 人 力 、 物 力 。 而 虚拟 化 系统 降低 了 用 户 与 虚拟 资产 之 间 的 耦合 度 ， 利 用 这 种 松 耦 
合 的 关系 ， 管 理 者 可 以 在 对 用 户 影 响 最 小 的 基础 上 对 资源 进行 管理 。 此 外 ， 虚 拟 化 系统 还 将 资 
源 进行 整合 ， 在 管理 上 相对 而 言 比较 方便 ， 在 升级 时 也 只 需 添 加 动作 ， 从 而 提高 工作 效率 。 

(4) 虚拟 化 技术 实现 软件 和 硬件 的 分 离 。 

用 户 在 同一 个 计算 机 系统 上 可 以 运行 多 个 软件 系统 ,不 同 的 软件 系统 通过 虚拟 机 监视 器 
(VMM, Virtual Machine Monitor ) 来 使 用 底层 的 硬件 资源 ， 从 而 实现 多 个 软件 系统 共享 同一 个 
硬件 资源 , 达到 软件 和 硬件 的 分 离 。 这 样 , 在 虚拟 化 的 统一 的 资源 池 能 够 运行 更 多 的 软件 系统 ， 
充分 利用 已 有 的 硬件 资源 。 

2. 虚拟 化 技术 的 劣势 

任何 事物 都 是 有 利 有 次 的 ， 虚拟 化 技术 也 不 例外 。 物 理 计 算 机 上 的 硬件 用 的 时 间 久 了 很 可 
能 会 损坏 ， 其 上 的 软件 也 要 定时 地 更 新 ， 防 止 病毒 的 感染 。 虚 拟 化 技术 由 于 是 针对 实际 的 计算 
机 来 进行 的 ， 虚 拟 化 技术 方案 的 部 著 、 使 用 也 有 一 些 劣势 。 

(1) 可 能 会 使 物理 计算 机 负载 过 重 。 

虚拟 化 技术 虽然 是 在 虚拟 的 环境 中 运行 的 , 但 是 其 并 不 是 完全 虚拟 的 ， 依 然 需 要 硬件 系统 
的 支持 。 以 服务 器 虚拟 化 为 例 ， 一 台 物 理 计 算 机 上 可 以 虚拟 化 出 多 台 客 户 机 ， 每 台 客 户 机 上 又 
可 以 安装 多 个 应 用 程序 。 奋 这 些 应 用 程序 全 部 运行 的 话 ， 就 会 占用 大 量 的 物理 计算 机 的 内 存 、 
CPU 等 硬件 系统 ， 从 而 给 物理 计算 机 市 来 沉重 的 负担 ， 可 能 会 导致 物理 计算 机 负载 过 重 , 使 各 
虚拟 机 上 的 应 用 程序 运行 缓慢 ， 甚 至 系统 朋 并 。 

(2) 升级 和 维护 引起 的 安全 问题 。 

物理 计算 机 的 操作 系统 及 操作 系统 上 的 各 种 应 用 软件 都 需要 不 定时 地 进行 升级 更 新 ， 以 增 
强 其 抵抗 攻击 的 能 力 。 每 台 客 户 机 也 都 需要 进行 升级 更 新 。 一 台 物 理 计 算 机 上 安装 多 台 客户 机 ， 
会 导致 在 客户 机 上 安装 补丁 速度 缓慢 。 如 果 ， 客 户 机 上 的 软件 不 能 及 时 更 新 ， 则 很 可 能 会 被 病 
毒 攻 击 ， 市 来 安全 隐患 。 

(3) 物理 计算 机 的 影 啊 。 

传统 的 物理 计算 机 发 生 不 可 逆转 的 损坏 时 ， 者 不 是 作为 服务 器 出 现 ， 则 只 有 其 和 目 身受 到 影 
响 。 当 采用 虚拟 化 技术 的 物理 计算 机 发 生 宕 机 时 ， 其 所 有 的 虚拟 机 都 会 受到 影响 。 在 虚拟 机 上 
运行 的 业务 也 会 受到 一 定 程度 的 影响 ， 甚 至 是 损坏 。 此 外 ， 一 台 物 理 计 算 机 的 虚拟 机 往往 会 有 
相互 通信 ， 在 相互 通信 的 过 程 中 ， 可 能 会 导致 安全 风险 。 


3.1.4 ”虚拟 化 技术 的 分 类 


虚拟 化 技术 从 计算 体系 结构 的 层次 上 可 分 为 : 指令 集 染 构 级 虚拟 化 、 硬件 级 虚拟 化 、 操 作 系 
统 级 虚拟 化 、 编 程 语言 级 虚拟 化 和 数据 库 级 虚拟 化 ， 其 比较 如 表 3.1 所 示 。 


表 3.1 5 种 虚拟 化 技术 的 比较 
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oe AS Hh # VE FA | Virtual Server 、 Zone 、 
操作 系统 层 虚 拟 化 操作 系统 缠 内 核 
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pr 应 用 层 的 部 分 功能 WM. CLR 
库 函 数 层 的 虚拟 化 应 用 级 库 函 数 的 接口 Wine 


] . 指令 集 架 构 级 虚拟 化 

站 令 集 染 构 级 虚拟 化 是 通过 纯 软 件 方法 ， 模 拟 出 与 实际 运行 的 应 用 程序 (或 操作 系统 ) 所 
不 同 的 指令 集 去 执行 ， 采 用 这 种 方法 构造 的 虚拟 机 一 般 称 为 模拟 器 (Emulator) 。 模 拟 器 是 将 
虚拟 平台 上 的 指令 翻译 成 本 地 指令 集 ， 然 后 在 实际 的 硬件 上 执行 。 其 特点 是 简单 、 具 有 重 棒 性 、 
可 跨 平 台 。 当 前 比较 典型 的 模拟 器 系统 有 Bochs, VLIW 等。 以 Bochs 为 例 ，Bochs 是 用 C++ 编 
写 的 模拟 x86 平台 的 模拟 器 。 用 户 可 以 在 任何 编译 运行 Bochs 的 平台 上 模拟 x86 的 各 种 硬件 ， 
并 且 在 Bochs 的 仿真 平台 上 可 以 安装 大 多 数 的 操作 系统 。 

2. 硬件 抽象 层 虚 拟 化 

硬件 抽象 层 虚 拟 化 是 指 将 虚拟 资源 映射 到 物理 资源 ， 并 在 虚拟 机 的 运算 中 使 用 实 实在 在 的 
硬件 。 即 使 用 软件 来 虚拟 一 台 标 准 计算 机 的 硬件 配置 ， 如 CPU、 内 存 、 人 硬盘、 声卡、 显卡 、 光 
驱 等 ， 成 为 一 台 虚 拟 的 裸 机 。 这 样 做 的 目的 是 为 客户 机 操作 系统 呈现 和 物理 硬件 相同 或 类 似 的 
物理 抽象 层 。 客 户 机 绝 大 多 数 指令 在 宿主 机 上 直接 运行 ， 从 而 提高 了 执行 效率 。 但 是 ， 给 虚拟 
机 分 配 的 硬件 资源 的 同时 虚拟 软件 本 喘 也 要 占用 实际 硬件 资源 的 , 对 性 能 损耗 较 大 。 虽然 如 此 ， 
硬件 抽象 层 虚 拟 化 的 优点 仍 不 可 和 忽视。 硬件 抽象 层 的 虚拟 机 具有 以 下 优点 : 

(1) 高 度 的 隔离 性 ; 

(2) 可 以 支持 与 宿主 机 不 同 的 操作 系统 及 应 用 程序 ; 

(3 ) 易于 维护 及 风险 低 。 

比较 有 名 的 硬件 抽象 层 虚 拟 化 解决 方案 有 VMWare、Virtual PC、Xen、KVM 等 。 以 Xen 
为 例 ，Xen 是 剑桥 大 学 开发 的 一 个 基于 x86 的 开源 虚拟 机 监视 器 ， 可 以 在 一 台 物 理 机 上 执行 多 
台 虚 拟 机 。 它 特别 适用 于 服务 器 整合 ， 具 有 性 能 高 、 占 用 资源 少 ， 节 约 成 本 等 优点 。 

3. 操作 系统 层 虚 拟 化 

操作 系统 层 虚 拟 化 是 指 通过 划分 一 个 宿主 操作 系统 的 特定 部 分 , 产生 一 个 个 隔离 的 操作 执 
行 环境 。 操 作 系统 层 的 虚拟 化 是 操作 系统 内 核 直 接 提 供 的 虚拟 化 ， 虚 拟 出 的 操作 系统 之 间 共 享 
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底层 宿主 操作 系统 内 核 和 底层 的 硬件 资源。 操作 系统 虚拟 化 的 关键 点 在 于 将 操作 系统 与 上 层 应 
用 隔离 开 ， 将 对 操作 系统 资源 的 访问 进行 虚拟 化 ， 使 上 层 应 用 党 得 自己 独占 操作 系统 。 操 作 系 
统 虚 拟 化 的 好 处 是 实现 了 虚拟 操作 系统 与 物理 操作 系统 的 隔离 并 且 有 效 避 免 物理 操作 系统 的 重 
复 安 装 。 比 较 有 名 的 操作 系统 虚拟 化 解决 方案 有 Virtual Server, Zone, Virtuozzo 及 虚拟 专用 服 
务 器 (Virtual Private Server, VPS). VPS 是 利用 虚拟 服务 器 软件 在 一 台 物 理 机 上 创建 多 个 相互 
隅 离 的 小 服务 需 。 这 些小 服务 器 本 号 就 有 上 自己 的 操作 系统 , 其 运行 和 管理 与 独立 主机 完全 相同 。 
其 可 以 保证 用 户 独 享 资源 ， 且 可 以 节约 成 本 。 

操作 系统 虚拟 化 看 似 与 硬件 虚拟 化 出 的 虚拟 机 上 安装 的 操作 系统 一 样 ， 都 是 产生 多 个 操作 
系统 ， 但 操作 系统 虚拟 化 与 硬件 虚拟 化 之 间 还 是 有 很 多 不 同 之 处 ， 区 别 如 下 。 

(1) 操作 系统 虚拟 化 是 以 原 系统 为 模板 ， 虚 拟 出 的 是 原 系统 的 副本 ， 而 硬件 虚拟 化 虚拟 的 
是 硬件 环境 ， 然 后 真实 地 安装 系统 。 

(2) 操作 系统 虚拟 化 虚拟 出 的 系统 只 能 是 物理 操作 系统 的 副本 ， 而 硬件 虚拟 化 虚拟 出 的 系 
统 可 以 为 不 同 的 系统 ， 如 Linux、Windows 等 。 

(3) 虚拟 出 的 系统 间 关 系 不 同 ， 操 作 系统 虚拟 化 虚拟 的 多 个 系统 有 较 强 的 联系 。 例 如 ， 多 
个 虚拟 系统 能 够 同时 被 配置 。 原 系统 发 生 了 改变 ， 所 有 虚拟 出 的 系统 都 会 改变 。 而 硬件 虚拟 化 
虚拟 的 多 个 系统 是 相互 独立 的 ， 与 原 系统 也 没有 联系 ， 原 系统 的 损坏 不 会 丽 及 虚拟 系统 。 

(4) 性 能 损耗 不 同 ， 操 作 系统 虚拟 化 虚拟 出 的 系统 都 是 虚拟 的 ， 性 能 损耗 低 ， 而 硬件 虚拟 
化 是 在 硬件 虚拟 层 上 实 实在 在 安装 的 操作 系统 ， 性 能 损耗 高 。 

4. 编程 语言 层 上 的 虚拟 化 

计算 机 若 不 安装 操作 系统 和 其 他 软件 的 话 ， 就 是 一 台 裸 机 。 操 作 系统 和 其 他 软件 相对 于 
裸 机 而 言 都 是 应 用 程序 。 编 程 语言 层 上 的 虚拟 机 是 在 应 用 层 上 创建 的 ， 并 支持 一 种 新 定义 的 
8 令 集 。 这 一 类 虚拟 机 运行 的 是 针对 虚拟 体系 结构 的 进程 级 作业 ， 通 常 这 种 虚拟 机 是 作为 一 
个 进程 在 物理 计算 机 系统 中 运行 的 ， 使 得 用 户 感 觉 不 到 应 用 程序 是 在 虚拟 机 上 运行 的 。 这 种 
层次 上 的 虚拟 机 主要 有 JVM(Java Virtual Machine) 和 CLR(Common Language Runtime)o 以 JVM 
为 例 ，JVM 是 通过 在 物理 计算 机 上 仿真 模拟 计算 机 的 各 种 功能 来 实现 的 ， 是 虚拟 出 来 的 计算 
机 。JVM 使 Java 程序 只 需 生 成 在 Java 虚拟 机 上 运行 的 目标 代码 ( 字 市 码 ) ， 就 可 以 在 多 种 平 
台 上 进行 无 颖 迁移 。 

5. 库 范 数 层 的 虚拟 化 

在 操作 系统 中 , 应 用 程序 的 编写 会 使 用 由 应 用 级 的 库 函 数 提 供 的 一 组 API 函数 。 这 些 函 数 
隐藏 了 一 些 操 作 系统 的 相关 底层 细节 ， 降 低 了 程序 员 的 编程 难度 。 库 函数 层 的 虚拟 化 就 是 对 操 
作 系 统 中 的 应 用 级 库 函 数 的 接口 进行 虚拟 化 ， 创 造 出 了 不 同 的 虚拟 化 环境 。 使 得 应 用 程序 不 需 
要 修改 ， 就 可 以 在 不 同 的 操作 系统 中 迁移 。 当 然 不 同 的 操作 系统 库 函 数 的 接口 不 一 样 。 如 属于 
这 类 虚拟 化 的 Wine， 是 利用 API 转换 技术 做 出 Linux 与 Windows 相对 应 的 函数 来 调用 DLL， 
从 而 能 在 Linux 系统 中 运行 Windows 程序 。 


3.2 常见 虚拟 化 软件 


3.2.1 VirtualBox 


VirtualBox 是 一 款 开源 免费 的 虚拟 机 软件 ， 使 用 简单 、 性 能 优越 、 功 能 强大 是 软件 本 里 并 
不 腔 肿 ，VirtualBox 是 由 德国 软件 公司 InnoTek 开发 的 虚拟 化 软件 ， 现 隶属 于 Oracle 旗下 ， 并 
更 名 为 Oracle VirtualBox。 其 宿主 机 的 操作 系统 文 持 Linux, Mac, Windows 三 大 操作 平台 , 在 
Oracle VirtualBox 虚拟 机 里 面 ， 可 安装 的 虚拟 系统 包括 各 个 版 本 的 Windows 操作 系统 、Mac OS 
X (32 位 和 64 位 都 支持 ) 、Linux 内 核 的 操作 系统 、OpenBSD Solaris, IBM OS2 甚至 Android 
4.0 系统 等 操作 系统 ,在 这 些 虚 拟 的 系统 里 面 安 效 任何 软件 ,都 不 会 对 原来 的 系统 造成 任何 影响 。 
它 与 同类 的 VMware Workstation 虚拟 化 软件 相 比 ，VirtualBox 对 Mac 系统 的 支持 要 好 很 多 ， 运 
行 比较 流畅 ， 配 置 比较 傻瓜 化 ， 对 于 新 手 来 说 也 不 需要 太 多 的 专业 知识 ,很 容易 掌握 ， 并 且 免 
费 这 一 点 就 足以 比 商 业 化 的 VMware Workstation 更 吸引 人 人， 因此 VirtualBox 更 适合 预算 有 限 的 
小 环境 。 


3.2.2 VMware Workstation 


VMware Workstation 是 一 蒜 功 能 强大 的 商业 虚拟 化 软件 ， 和 VirtualBox 一 样 ， 仍 然 可 以 在 
一 个 宿主 机 上 安装 多 个 操作 系统 的 虚拟 机 ， 和 宿主 机 的 操作 系统 可 以 是 Windows 或 Linux， 可 以 
在 VMware Workstation 中 运行 的 操作 系统 有 DOS、Windows 3.1, Windows 95、Windows 98, 
Windows 2000、Linux、FreeBSD =, VMware Workstation 虚拟 化 软件 虚拟 的 各 种 操作 系统 仍然 
是 开发 、 测 试 、 部 闭 新 的 应 用 程序 的 最 佳 解 决 方案 。VMware Workstation 占 的 空间 比较 大 ， 
VMware 公司 同时 还 提供 一 个 免费 、 精 简 的 Workstation 环境 VMware Player, 可 在 VMware 
官方 网 站 下 载 使 用 。 对 于 企业 的 IT 开发 人 员 和 系统 管理 员 而 言 ， VMware Workstation 在 虚拟 
网 络 、 实 时 快照 、 拖 蝶 共 享 文件 夹 、 支 持 PXE 等 方面 的 特点 使 它 成 为 必 不 可 少 的 工具 。 

总 体 来 看 , VMware Workstation 的 优点 在 于 其 计算 机 虚拟 能 力 , 物理 机 隔离 效果 非常 优秀 ， 
它 的 功能 非常 全 面 , 倾向 于 计算 机 专业 人 员 使 用 , 其 操作 界面 也 很 人 性 化 ; VMware Workstation 
的 缺点 在 于 其 体积 庞大 ， 安 装 时 间 耗 时 较 久 ， 并 且 在 运行 使 用 时 占用 物理 机 的 资源 较 大 。 


3.2.3 KVM 


KVM ( Kernel—based Virtual Machine ) 是 一 种 针对 Linux 内 核 的 虚拟 化 基础 架构 ,， 它 支持 具 
有 硬件 虚拟 化 扩展 的 处 理 器 上 的 原生 虚拟 化 。 最 初 ， 它 支持 x86 处 理 器 ， 但 现在 广泛 支持 各 种 
处 理 器 和 操作 系统 ,包括 Linux, BSD, Solaris, Windows, Haiku, ReactOS 和 AR-OS 等 。 基 
于 内 核 的 虚拟 机 (KVM) 是 针对 包含 虚拟 化 扩展 ( Intel VT 或 AMD-V) 的 x86 硬件 上 的 
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Linux 的 完全 原生 的 虚拟 化 解决 方案 。 对 半 虚 拟 化 ( Paravirtualization ) 的 有 限 支 持 也 可 以 通过 半 
虚拟 网 络 驱 动 程序 的 形式 用 于 Linux 和 Windows Guest 系统 。 

尽管 KVM 是 一 个 相对 较 新 的 虚拟 机 管理 程序 ， 但 这 个 随 主流 Linux 内 核发 布 的 轻 量 型 模 
块 提供 简单 的 实现 和 对 Linux 重要 任务 的 持续 支持 。KVM EAR RIG, Guest 操作 系统 与 集成 
到 Linux 内 核 中 的 虚拟 机 管理 程序 通信 ， 以 直接 寻 址 硬件 ， 无 需 修改 虚拟 化 的 操作 系统 。 这 使 
得 KVM 成 为 更 快 的 虚拟 机 解决 方案 。KVM 的 补丁 与 Linux 内 核 兼容 ，KVM 在 Linux 内 核 本 
身 内 实现 , 这 进而 简化 对 虚拟 化 进程 的 控制 , 但 是 没有 成 熟 的 工具 可 用 于 KVM 服务 器 的 管理 ， 
KVM 仍然 需要 改进 虚拟 网 络 的 文 持 、 虚 拟 存 储 的 支持 ， 并 且 增 强 安 全 性 、 高 可 用 性 、 容 错 、 
电源 管理 、HPC/ 实 时 支持 、 虚 拟 CPU 可 伸缩 性 、 跨 供应 商 兼 容 性 、VM 可 移植 性 。 


3.3 系统 虚拟 化 


1 . 什么 是 系统 虚拟 化 

系统 虚拟 化 是 指 在 一 台 物 理 计 算 机 系统 上 虚拟 出 一 台 或 多 台 虚 拟 计算 机 系统 。 虚拟 计 算 机 
系统 ( 简称 虚拟 机 ) 是 指使 用 虚拟 化 技术 运行 在 一 个 隔离 环境 中 的 具有 完整 硬件 功能 的 逻辑 计 
算 机 系统 ， 包 括 操作 系统 和 应 用 程序 。 一 台 虚 拟 机 中 可 以 安装 多 个 不 同 的 操作 系统 ， 并 且 这 些 
操作 系统 之 间 相互 独立 。 虚 拟 机 和 物理 计算 机 系统 可 以 有 不 同 的 指令 集 架 构 ， 这 样 会 使 得 虚拟 
机 上 的 每 一 条 指令 都 要 在 物理 计算 机 上 模拟 执行 。 显 而 易 见 ， 会 导致 性 能 低下 。 所 以 ， 我们 一 
般 使 虚拟 机 的 指令 集 染 构 与 物理 计算 机 系统 相同 。 这 样 大 部 分 指令 都 会 在 处 理 兹 上 直接 运行 ， 
只 有 那些 需要 虚拟 化 的 指令 才 会 在 虚拟 机 上 运行 。 

2. 系统 虚拟 化 的 典型 特征 

说 到 虚拟 机 ， 就 不 得 不 提 到 虚拟 机 的 特性 。1974 年 ， Popek 和 Goldberg 在 发 表 的 文章 
“Formal Requirements for Virtualizable Third Generation Architectures” 中 指出 虚拟 机 可 以 看 作 
是 物理 机 的 一 种 高 效 隔离 的 复制 ， 并 指出 虚拟 机 有 同一 性 、 高 效 性 、 受 控 性 的 3 个 典型 特征 。 

同一 性 是 指 虚拟 机 的 运行 环境 和 物理 机 的 运行 环境 在 本 质 上 应 该 是 相同 ， 表 现形 式 上 可 以 
有 所 差别 。 

高 效 性 是 指 软件 在 虚拟 机 上 运行 时 ， 大 部 分 是 在 硬件 上 运行 的 ， 只 有 少数 是 在 虚拟 机 中 运 
行 的 ， 从 而 在 虚拟 机 中 运行 的 软件 的 性 能 接近 在 物理 机 上 运行 的 性 能 。 

资源 受 控 是 指 VMM 完全 控制 和 管理 系统 资源 。 

3. 系统 虚拟 化 的 优点 

系统 虚拟 化 提供 了 多 个 相互 隔离 的 执行 环境 ,虚拟 机 之 间隔 离 性 ， 虚 拟 机 与 底层 硬件 之 间 
的 无 关 性 所 带 来 的 好 处 是 很 难 估量 的 。 此 外 ， 虚 拟 化 层 作 为 特权 层 能 够 提供 一 些 特有 的 功能 。 

(1) 硬件 无 关 性 。 

虚拟 机 与 底层 硬件 之 间 是 虚拟 化 层 ， 其 与 底层 硬件 之 间 并 没有 直接 的 联系 。 所 以 只 要 另 一 
台 计 算 机 提供 相同 的 虚拟 硬件 抽象 层 ， 一 个 虚拟 机 就 可 以 无 缝 地 进行 迁移 。 | 


(2) 隔离 性 。 

使 用 虚拟 机 ， 应 用 软件 可 以 独立 地 在 虚拟 机 上 运行 , 不 受 其 他 虚拟 机 的 影响 。 即 使 其 他 的 
虚拟 机 崩溃 ， 也 可 以 正常 运行 。 这 种 隔离 性 的 好 处 是 : 可 以 在 一 台 物 理 机 虚拟 出 的 多 台 虚 拟 机 
上 进行 不 同 的 操作 ， 相 互 之 间 没 有 影响 。 

(3) 多 实例 。 

在 一 台 物 理 机 上 可 以 运行 多 台 虚 拟 机 ， 而 一 台 虚 拟 机 上 又 可 以 安装 多 个 操作 系统 。 不 同 的 
虚拟 机 的 繁忙 、 空 闲 时 间 又 不 同 ， 这 样 虚 拟 机 交错 使 用 物理 计算 机 的 硬件 资源 ， 资 源 利用 率 比 
较 高 。 

(4) 特权 功能 。 

系统 虚拟 化 的 虚拟 化 层 是 在 本 地 硬件 与 虚拟 机 之 间 ， 其 将 下 层 的 资源 抽象 成 男 一 种 形式 的 
资源 ， 提 供给 上 层 的 虚拟 机 使 用 。 虚 拟 化 层 拥有 更 高 的 特权 体现 在 : 虚拟 化 层 中 添加 的 功能 不 
需要 了 解 客 户 机 的 具体 语义 ， 实 现 起 来 更 加 容易 ， 并 上 且 添加 的 功能 具有 较 高 的 特权 级 ， 不 能 被 
客户 机 绕 过 。 


3.3.1 服务 硕 虚 拟 化 


系统 虚拟 化 的 最 大 价值 在 于 服务 器 虚拟 化 。 服 务 器 虚拟 化 是 将 系统 虚拟 化 技术 应 用 于 服务 
器 上 ， 将 一 台 或 多 台 服务 器 虚拟 化 为 若干 台 服务 器 使 用 。 现 在 ， 数 据 中 心 大 部 分 使 用 的 是 x86 
服务 器 。 一 个 数据 中 心 可 能 有 成 干 上 万 台 x86 服务 器 。 以 前 ， 出 于 性 能 、 安 全 等 方面 的 考虑 ， 
一 台 服务 器 只 能 执行 一 个 服务 ， 导 致 服务 器 利用 率 低 下 。 服 务 器 虚拟 化 是 在 一 台 物理 服务 器 上 
虚拟 出 多 个 虚拟 服务 器 , 每 个 虚拟 服务 器 执行 一 项 任务 。 这 样 的 话 , 服务 器 的 利用 率 相对 较 高。 

1 .服务 器 虚拟 化 的 分 类 7 

服务 器 虚拟 化 按 虚拟 的 服务 器 台数 可 以 分 为 以 下 3 种 类 型 。 

(1) 将 一 台 服务 器 虚拟 成 多 台 服务 器 ， 即 将 一 台 物 理 服务 器 分 割 成 多 个 相互 独立 、 互 不 二 
扰 的 虚拟 环境 。 

(2) 服务 器 整合 ， 就 是 多 个 独立 的 物理 服务 器 虚拟 为 一 个 逻辑 服务 器 ， 使 多 台 服务 器 相互 
协作 ， 处 理 同 一 个 业务 。 


(3) 服务 器 先 整合 、 再 切 分 ， 就 是 将 多 台 物 理 服务 器 虚拟 成 一 台 逻 辑 服务 器 ， 然 后 册 将 其 


划分 为 多 个 虚拟 环境 ， 即 多 个 业务 在 多 台 虚 拟 服务 器 上 运行 。 

2. 服务 器 虚拟 化 所 需 的 技术 

物理 服务 器 有 其 不 可 缺少 的 关键 部 件 , 如 CPU、LO 等 。 那 么 , 这些 关 键 部 件 是 如 何 进行 
虚拟 化 的 呢 ? 服务 器 虚拟 化 的 关键 技术 是 对 CPU、 内 存 、LO 硬件 资源 的 虚拟 化 。 下 面 对 这 3 
种 硬件 资源 的 虚拟 化 进行 介绍 。 

(1) CPU 虚拟 化 。 

CPU 虚拟 化 技术 是 把 物理 CPU 抽象 成 虚拟 CPU， 任 意 时 刻 一 个 物理 CPU 只 能 运行 一 个 
虚拟 CPU 指令 。 每 个 客户 操作 系统 可 以 使 用 一 个 或 多 个 虚拟 CPU。 在 这 些 客户 操作 系统 之 间 ， 


a_i 


虚拟 CPU 的 运行 相互 隔离 ， 互 不 影 啊 。 

在 纯 软件 的 CPU 虚拟 化 中 ， 有 全 虚拟 化 和 半 虚 拟 化 两 种 不 同 的 软件 方案 。 全 虚拟 化 是 采 
用 二 进 制 动态 翻译 技术 ( Dynamic Binary Translation ) 来 解决 客户 操作 系统 的 特权 指令 问题 。 半 
虚拟 化 是 通过 修改 客户 操作 系统 来 解决 虚拟 机 执行 特权 指令 的 问题 ， 即 将 所 有 敏感 指令 替换 为 
对 底层 虚拟 化 平台 的 超级 调用 。 这 两 种 方案 都 会 增加 系统 的 复杂 性 和 性 能 开销 。 

原来 的 x86 CPU 不 能 有 效 地 支持 虚拟 化 ， 那 时 ，CPU 虚拟 化 只 能 在 软件 层面 上 进行 。 随 
着 硬件 技术 的 发 展 , 硬件 的 性 能 有 了 很 大 的 提高 , 现在 主流 的 x86 CPU 开始 在 硬件 层面 上 支持 
CPU 虚拟 化 ， 从 而 就 有 了 CPU 的 硬件 辅助 虚拟 化 。CPU 的 硬件 辅助 虚拟 化 是 在 CPU 中 加 入 
新 的 指令 集 和 处 理 器 运行 模式 来 支持 CPU 虚拟 化 ， 使 得 系统 软件 能 更 加 容易 、 高 效 地 实现 虚 
拟 化 功能 。 

CPU 的 硬件 辅助 虚拟 化 主要 有 Intel VT-x 和 AMD。 以 VT-x 为 例 ，VT-x 的 原理 是 : 首 
先 ， 其 引入 了 根 (VMX root operation ) FOSEAR ( VMX non-root operation ) 两 种 操作 模式 ， 这 
两 种 模式 统称 为 VMX 操作 模式 。 根 操作 模式 是 VMM 运行 所 处 的 模式 ， 其 行为 和 早期 的 没有 
VT-x 技术 的 x86 CPU 相同 。 非 根 操作 模式 是 客户 机 运行 时 所 处 的 模式 ,提供 了 一 个 支撑 虚拟 
机 运行 所 需 的 CPU 环境 。 这 两 种 操作 模式 都 有 特权 级 0~ 特 权 级 3， 共 4 种 特权 级 。 在 VT 一 x 
中 ， 从 非 根 操作 模式 到 根 操 作 模 式 的 转换 形式 称 为 VM-Exit. 而 从 根 操 作 模 式 到 非 根 操作 模式 
的 转换 形式 为 VM 一 Entry。 此外, VT-x 还 引入 了 保存 虚拟 CPU 相关 状态 的 VMCS 来 更 好 地 支 
持 CPU 虚拟 化 。 

(2) 内 存 虚 拟 化 。 

内 存 虚 拟 化 是 对 宿主 机 的 真实 物理 内 存 统一 管理 ， 虚 拟 化 成 虚拟 的 物理 内 存 ， 然 后 分 别 供 
若干 个 虚拟 机 使 用 ， 使 得 每 个 虚拟 机 拥有 各 目 独 立 的 内 存 空间 。 

对 于 真实 的 操作 系统 而 言 ， 内 存 是 从 物理 地 址 0 开始 的 ， 且 是 连续 的 ， 至 少 在 一 些 大 粒度 
上 是 连续 的 。 在 虚拟 化 中 ， 所 有 的 客户 操作 系统 可 能 会 同时 使 用 起 始 地 址 是 0 的 物理 内 存 ， 为 
了 满足 所 有 的 客户 操作 系统 的 起 始 物理 地 址 都 是 0 且 它 们 内 存 地 址 的 连续 性 ，VMM 引入 了 一 
层 新 的 地 址 空间 一 一 客户 机 物理 地 址 空间 。 

虚拟 机 监视 器 ( VMM ) 通过 虚拟 机 内 存 管理 单元 (Memory Management Unit, MMU ) 来 
管理 虚拟 机 内 存 ， 即 其 负责 分 配 和 管理 每 个 虚拟 机 的 物理 内 存 。 客 户 机 操作 系统 看 到 的 是 一 个 
虚拟 的 物理 内 存 地 址 空间 〈 即 客户 机 物理 地 址 空间 ) ， 不 再 是 真正 的 物理 内 存 地 址 空间 。 有 了 
客户 机 物理 地 址 空间 就 形成 了 两 层 地 址 映射 即 应 用 程序 所 对 应 的 客户 机 虚拟 地 址 空间 到 客户 机 
物理 地 址 的 映射 ， 客 户 机 物理 地 址 到 宿主 机 物理 地 址 的 上 映射。 前 一 种 映射 是 由 客户 机 操作 系统 
完成 的 ， 后 一 种 是 由 VMM 通过 动态 地 维护 镜像 页 表 来 管理 的 。 

(3) IO 虚拟 化 。 

在 一 台 虚 拟 机 上 可 以 安装 多 个 操作 系统 , 这些 和 客户 操作 系统 都 会 对 外 设 资源 进行 访问 ,但 是 ， 
外 设 资源 是 有 限 的 , 为 了 使 所 有 的 客户 操作 系统 都 能 访问 外 设 资源 ,虚拟 机 监视 器 需 通过 1/O He 
拟 化 的 方式 复 用 有 限 的 外 设 资源 。 此 时 ，VMM 截获 客户 操作 系统 对 外 设 的 访问 请 求 ， 然 后 通过 
软件 的 方式 模拟 真实 外 设 的 效果 。 但 是 ， 并 不 要 求 完 整地 虚拟 化 出 所 有 外 设 的 所 有 接口 。 


1/O 虚拟 化 的 第 一 步 是 发 现 设 备 ， 设 备 的 发 现 取 决 于 被 虚拟 的 设备 类 型 。 设 备 类 型 不 同 ， 
设备 的 发 现 方式 也 不 同 。 以 模拟 一 个 完全 虚拟 的 设备 为 例 ， 这 种 虚拟 设备 所 处 的 总 线 类 型 完全 
由 VMM 自行 决定 , VMM 可 以 自 定义 一 套 虚拟 总 线 协 议 , 也 可 以 将 虚拟 设备 挂 在 PCI 总 线 上 。 
第 二 步 是 截获 访问 , 虚拟 设备 已 经 发 现 , 此 时 VMM 的 工作 是 使 客户 机 操作 系统 对 其 进行 访问 。 
VMM 会 根据 设备 的 不 同性 能 提供 不 同 的 截获 方式 。 例 如 ， 对 于 直接 分 配给 客户 操作 系统 并 有 
端口 1/O 资源 的 设备 ，VMM 的 处 理 方式 是 把 该 设备 所 属 的 端口 IO 从 IO 位 图 中 打开 ， 访 问 
就 会 被 处 理 器 发 送 给 系统 总 线 ， 最 后 到 达 目 标 物理 设备 。 

在 1/O 设备 中 有 一 种 比较 特殊 的 设备 一 一 网 卡 。 网 卡 除 了 和 一 般 的 MO 设备 一 样 作 为 虚 
拟 机 的 共享 设备 外 ， 还 要 解决 虚拟 机 与 外 部 网 络 或 者 虚拟 机 相互 之 间 的 通信 问题 。 网 卡 虚拟 
化 技术 主要 分 为 两 类 : 虚拟 网 卡 技 术 和 虚拟 网 桥 技 术 。 虚 拟 网 卡 是 指 虚拟 机 中 的 网 卡 ， 是 由 
模拟 器 通过 软件 的 方法 模拟 出 来 的 ; 虚拟 网 桥 是 指 利 用 软件 方法 实现 的 网 桥 其 作用 是 在 一 台 
服务 器 中 ， 使 多 块 共享 一 块 物理 网 卡 的 虚拟 网 卡 对 外 表现 为 多 块 独立 的 网 卡 。 


3.3.2 ”四面 虚拟 化 


桌面 虚拟 化 依赖 于 服务 需 虚 拟 化 ， 直 观 上 来 说 就 是 将 计算 机 的 桌面 进行 虚拟 化 ,是 将 计算 


机 的 桌面 与 其 使 用 的 终端 设备 相 分 离 。 桌 面 虚 拟 化 为 用 户 提供 部 著 在 云端 的 远程 计算 机 桌面 环 


境 ， 用 户 可 以 使 用 不 同 的 终端 设备 通过 网 络 来 访问 该 介面 环境 ， 即 在 虚拟 桌面 环境 服务 器 上 运 
行 用 户 所 需要 的 操作 系统 和 应 用 软件 。 桌 面 虚拟 化 的 应 用 软件 安装 在 云端 服务 器 上 ， 即 使 本 地 
服务 器 上 没有 应 用 软件 ， 用 户 依然 可 以 通过 虚拟 桌面 来 访问 相关 的 应 用 。 

1 .桌面 虚拟 化 的 优势 

(1) 更 灵活 的 访问 和 使 用 。 

传统 的 计算 机 桌面 ， 需 要 在 特定 的 设备 上 使 用 ， 例 如 ， 某 用 户 的 计算 机 桌面 上 安装 了 
PhotoShop 软件 ， 若 要 使 用 ， 只 能 用 自己 的 那 台 计 算 机 。 虚 拟 桌 面 不 是 本 人 直接 安装 在 设备 上 ， 
而 是 部 署 在 远程 服务 器 上 的 。 任 何 一 台 满 足 接 入 要 求 的 终端 设备 在 任何 时 间 、 任 何 地 点 都 可 以 
进行 访问 。 例 如 ， 拥 有 虚拟 桌面 的 用 户 ， 在 上 班 的 时 候 可 以 使 用 单位 提供 的 瘦 客 户 端 设备 来 访 
问 虚 拟 桌 面 ， 在 出 行 的 路 上 可 以 使 用 智能 手机 、 平 板 计 算 机 上 安装 的 客户 端 软件 来 访问 虚拟 桌 
面 ， 更 加 方便 、 快 捷 。 

(2) 更 低 的 用 户 终 六 配置 。 

虚拟 桌面 部 署 在 远程 服务 器 上 ， 所 有 的 计算 都 在 远程 服务 器 上 进行 ， 而 终端 设备 主要 是 用 
来 显示 远程 梨 面 内 容 。 所 以 ， 终 端 设备 没有 必要 拥有 与 远程 服务 器 相似 的 配置 ， 对 其 配置 要 求 
更 低 、 维 护 相 对 而 言 也 更 加 容易 。 

(3) 更 便于 集中 管控 终端 桌面 。 

虚拟 束 面 并 不 是 没有 目 己 的 个 人 桌面 ， 其 完全 可 以 与 本 地 的 个 人 桌面 同时 存在 ， 两 者 可 以 
互 不 干扰 。 使 用 虚拟 桌面 ， 运 行商 将 所 有 的 桌面 管理 放 在 后 端的 数据 中 心中 ， 数 据 中 心 可 以 对 
果 面 镜像 和 相关 的 应 用 进行 管理 、 维 护 。 而 终端 用 户 不 用 知道 具体 的 管理 和 维护 ， 就 可 以 使 用 
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经 过 维护 后 的 蝎 面 。 

(4) 更 高 的 数据 安全 性 。 

用 户 在 虚拟 桌面 上 所 做 的 应 用 是 在 后 台 的 数据 中 心中 执行 的 , 所 产生 的 数据 也 存储 在 数据 
中 心 ， 并 没有 存储 在 用 户 的 终端 设备 上 上。 从而， 用户 终端 设备 的 损坏 对 数据 没有 影响 。 此 外 ， 
由 于 传统 的 物理 桌面 会 接 入 内 部 网 ， 一 旦 一 个 终端 感染 病毒 ， 就 可 能 融 及 整个 内 部 网 络 。 而 虚 
拟 果 面 的 镜像 文件 受到 感染 ， 受 影响 的 只 是 虚拟 机 ， 能 很 快 地 得 到 清除 和 恢复 。 

(5 ) 更 低 的 成 本 。 | 

虚拟 桌面 简化 了 用 户 终端 ， 用 户 可 以 选择 配置 相对 较 低 的 终端 设备 ， 从 而 节省 购买 成 本 。 
同时 ， 传 统 的 每 台 计 算 机 上 都 要 有 一 个 昌 面 环境 。 而 且 这 些 计算 机 分 布 在 世界 各 地 。 管 理 起 来 
比较 困难 ,管理 成 本 也 比较 高 。 而 虚拟 桌面 及 其 相关 应 用 的 管理 和 维护 都 是 在 远程 服务 器 端 运 
行 的 ， 成 干 上 万 的 用 户 可 以 使 用 同一 个 虚拟 介面 ， 从 而 降低 了 管理 和 维护 的 成 本 。 

2. 虚拟 桌面 的 解决 方案 

用 户 开 始 使 用 棵 面 已 经 很 多 年 了 ， 最 先是 在 自己 的 计算 机 上 使 用 ， 现 在 已 经 形成 了 基于 虚 
拟 蝎 面 基础 架构 ( Virtual Desktop Infrastructure, VDI) 和 基于 服务 器 计算 技术 ( Server—Based 
Computing, SBC ) 两 种 技术 解决 方案 ， 这 两 种 技术 方案 都 是 一 种 端 到 端的 桌面 管理 解决 方案 ， 
如 表 3.2 所 示 。 


表 3.2 VDI 解决 方 案 与 SBC 解决 方 案 的 比较 


服务 中 性 能 要 高 ， 需 要 能 支持 服务 器 虚 WE 
拟 化 软件 的 运行 

用 户 支持 扩展 低 ， 与 服务 器 上 能 同时 承 nt 

性 载 的 虚拟 机 个 数 有 关 用 软件 执行 实例 有 关 


方案 实施 复杂 sae cea ate 低 , 只 需要 以 传统 方式 安装 和 部 
| 要 应 用 软件 就 可 提供 服务 


性 服务 

OT ”高 ,支持 Linux 桌面 、 | 和 
Windows 桌面 等 桌面 上 的 应 用 只 支持 Windows 上 的 应 用 

Am 高 ， 依 赖 于 虚拟 机 之 间 的 |, OBC Windows 操作 系统 
安全 隔离 性 进程 之 间 的 安全 隔离 性 

ae 高 ， 依 赖 于 虚拟 机 之 间 的 | 。” 低 ， 依 赖 于 Windows 操作 系统 
性 能 隔离 性 进程 之 间 的 性 能 隔离 性 


Avast EY 无 ， 每 一 个 桌面 都 是 一 个 

兼容 性 sto 有 ， 依 赖 于 操作 系统 的 版 本 

提供 服务 的 性 5 eo = ee 低 , 在 一 个 刀 户 上 的 用 户 数 相对 
能 Peep ra 较 多 


(1) 基于 VDI 的 虚拟 桌面 解决 方案 。 

基于 VDI 的 虚拟 桌面 解决 方案 是 基于 服务 器 虚拟 化 的 , 拥有 服务 器 虚拟 化 的 所 有 优点 。 其 
原理 是 在 远程 数据 中 心 的 服务 器 上 安装 虚拟 机 并 在 其 中 部 署 用户 所 需要 的 操作 系统 及 操作 系统 
上 的 各 种 应 用 ， 此 时 虚拟 桌面 就 是 虚拟 机 上 的 操作 系统 及 其 上 的 各 种 应 用 。 然 后 通过 果 面 显示 
协议 将 完整 的 虚拟 桌面 交付 给 终端 用 户 使 用 。 终 端 用 户 通 过 一 对 一 的 方式 连接 和 控制 运行 在 远 
端 服务 器 上 的 实例 。 

桌面 显示 协议 是 指 在 远程 桌面 与 终端 之 间 所 使 用 的 通信 协议 ， 用 于 键盘 等 输入 设备 、 显 示 
设备 等 与 桌面 信息 之 间 的 数据 传输 。 桌 面 显 示 协 议 是 桌面 虚拟 化 软件 的 核心 部 件 。 当 前 主流 的 
显示 协议 包括 RDP ( Remote Desktop Protocol ) 、PCoIP、SPICE、ICA 等 。 

基于 VDI 的 虚拟 桌面 解决 方案 ， 用户 可 以 “暂停 ”单个 虚拟 机 ,然后 将 它们 从 一 个 服务 右 
迁移 到 另 一 个 服务 器 。 如 果 服 务 器 端的 Windows XP 是 基于 VMware VDI 基础 架构 的 ， 数 据 中 
心 的 管理 员 就 可 以 保有 一 些 很 酷 的 灵活 性 。 例 如 ， 管 理 员 可 以 通过 管理 控制 台中 的 一 个 按钮 来 
“移动 ”用 户 到 另 一 台 服 务 器 上 。 用 户 会 收 到 一 个 弹出 框 ， 显 示 “ 请 稍 等 片刻 ”， 然 后 服务 右 将 
Windows XP 桌面 VM 的 内 存 内 容 转 储 到 磁盘 ， 虚 拟 机 将 被 置 备 到 画 一 个 物理 硬件 上 。 这 整个 
过 程 大概 需 要 不 到 30s， 而 用 户 会 正好 回 到 他 们 离开 的 地 方 。 这 项 技术 的 另 一 个 用 途 是 ， 管 理 
员 可 能 有 一 个 额外 的 “超时 ”设置 。 例 如 ，20min 后 没有 活动 的 用 户 会 话 将 被 中 断 ( 它 仍然 是 
在 服务 器 上 运行 , 但 是 从 客户 端 断 开 连接 ) 。 如 果 在 1h 后 用 户 仍然 没有 进行 连接 ， 该 系统 就 可 
以 “暂停 ”会 话 并 转 储 内 存 内 容 到 磁盘 ， 然 后 释放 出 硬件 资产 供 其 他 的 用 户 使 用 。 每 当 该 用 户 
连接 时 ， 会 话 将 重新 开始 ， 无 论 过 了 多 入， 用户 都 将 回 到 他 们 离开 的 地 方 。 

(2) 基于 SBC 的 虚拟 桌面 解决 方案 。 

基于 SBC 的 虚拟 桌面 解决 方案 的 原理 是 在 数据 中 心 内 的 物理 机 上 直接 安装 、 运 行 操 作 系统 
和 应 用 软件 ， 此 时 的 桌面 就 是 服务 器 上 的 物理 桌面 。 用 户 通过 和 服务 避 建 立 的 会 话 对 服务 郁 提 
面 及 相关 应 用 进行 访问 和 操作 。 这 类 解决 方案 在 服务 右上 部 署 的 操作 系统 是 必须 支持 多 用 户 多 
会 话 的 , 并 且 人 允许 多 个 用 户 共享 操作 系统 桌面 。 同 时 ,用 户 会 话 产生 的 输入 /输出 数据 被 封装 为 
桌面 交付 协议 格式 在 服务 器 和 客户 端 之 间 传 输 。 

基于 SBC 的 虚拟 桌面 解决 方案 ,管理 员 可 以 在 一 个 数据 中 心 的 服务 器 上 运行 50~75 个 的 
桌面 会 话 ， 并 且 该 服务 器 的 一 个 实例 是 由 Windows 来 管理 的 ， 当 使 用 VDI 方案 时 ， 才 有 50~ 
75 个 用 户 就 要 有 50~ 75 个 操作 系统 ， 每 一 个 操作 系统 都 要 进行 配置 、 管 理 、 维 护 ， 很 浪费 人 
力 、 物 力 。 


3.3.3 ”网 络 虚 拟 化 


网 络 虚 拟 化 并 不 是 一 个 新 的 概念 , 已 经 提出 了 十 多 年 了 , 但 是 其 依然 处 在 早期 的 运用 阶段 。 
由 于 在 不 同 的 虚拟 机 之 间 可 以 建立 一 个 私有 的 虚拟 网 络 ， 可 以 说 ， 网 络 虚 拟 化 是 服务 器 虚拟 化 
产品 的 一 部 分 。 

网 络 虚 拟 化 一 般 是 指 虚拟 专用 网 。 虚 拟 专用 网 对 网 络 连 接 进行 了 抽象 ， 远程 用 户 可 以 像 物 
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理 连接 在 组 织 内 部 网 络 的 用 户 一 样 来 访问 该 网 络 。 虚 拟 专用 网 络 是 通过 一 个 公用 网 络 建立 一 个 
临时 的 、 安 全 的 连接 ， 是 一 条 穿 过 混乱 的 公用 网 络 的 安全 、 稳 定 隧道 。 使 用 这 条 隧道 可 以 对 数 
据 进 行 几 倍加 密 达 到 安全 使 用 互联 网 的 目的 。 虚拟 专用 网 可 以 保护 网 络 环 境 , 使 用 户 能 够 快捷 、 
安全 地 访问 组 织 内 部 的 网 络 。 

网 络 虚 拟 化 还 有 另外 一 种 形式 一 一 虚拟 局 域 网 。 虚 拟 局 域 网 能 把 一 物理 局 域 网 中 的 节点 在 
逻辑 上 划分 为 多 个 虚拟 局 域 网 ， 或 者 是 把 多 个 物理 局 域 网 中 的 站 点 划分 到 一 个 虚拟 局 域 网 中 。 
每 一 个 虚拟 局 域 网 都 有 一 组 相同 需求 的 计算 机 工作 站 ， 其 的 工作 方式 与 物理 局 域 网 类 似 。 虚 拟 
局 域 网 增强 了 网 络 安 全 和 网 络 管理 。 例 如 ， 在 同一 个 虚拟 局 域 网 中 的 计算 机 工作 站 之 间 的 通信 
与 直接 在 独立 的 交换 机 上 运行 是 一 样 的 ， 虚 拟 局 域 网 中 的 广播 只 有 虚拟 局 域 网 中 的 计算 机 工作 
站 才能 收 到 ， 控 制 了 不 必要 的 广播 风暴 的 产生 。 


3.4 ”使 用 KVM 构建 虚拟 机 群 


1. 安装 KVM 
查看 CPU 是 否 支 持 虚拟 化 ， 这 里 我 们 的 CPU 为 4 核 , 支持 虚拟 化 本 机 的 。 
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知识 : 在 Linux 系统 中 CPU 的 全 部 信息 存储 在 /proc/cpuinfo 中 ， 使 用 指令 “cat” 可 以 查 
看 其 全 部 信息 。 如 果 有 “vmx” 字 样 ， 则 表示 CPU 支持 Intel-V 虚拟 化 技术 ; 如 果 有 “svm” 
字样 ， 则 表示 CPU 支持 AMD-V 虚拟 化 技术 ; 如 果 没 有 任何 显示 则 表示 不 支持 虚拟 化 。 
安装 KVM. 
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如 果 显 示 如 下 信息 ， 则 表示 KVM 安装 完毕 。 


启动 ibvind 服务 ， 并 在 下 次 启动 时 自动 启动。 
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依次 单 击 “ 应 用 程序 ” 一 “系统 工具 ” 一 “虚拟 机 管理 器 ”， 启 动 虚拟 机 管理 器 。 
2. 新 建 虚拟 机 

在 KVM 中 新 建 虚拟 机 可 以 采用 从 本 地 安装 、 网 络 安装 、 网 络 引导 和 导入 已 有 系统 镜像 等 
方式 进行 ， 如 图 3.1 所 示 。 这 里 我 们 安装 一 台 虚 拟 机 ， 并 复制 生成 虚拟 机 ， 形 成 由 3 个 虚拟 节 
点 构成 的 集群 。 


新 建 虚 执 机 
aan Get BL, 


输入 虚拟 机 详情 
ARN) : Bamananmenndrrppnpp bnend ee trermmpemennennesatemmatatetmnmnanbahnnneans ee roe voor 
连接 (Q) : localhost (QEMU/KVM) 


选择 如 何 安 装 操 作 系 统 
@ 本 地 安装 介质 (1SO 映像 或 者 光驱 }{L) 
©) ISR) + VA HTTP, FTP 或 者 NFS. 
C) 网 络 引 导 {PXE)(B) ， 
© Import existing disk image 


= 


LN 


uy 


3.1 新 建 虚拟 机 
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3. 管理 虚拟 机 
在 KVM 虚拟 机 管理 侨 中 同时 启动 3 个 虚拟 机 ， 如 图 3.2 所 示 。 


sais) a a i etl ,Als 
文件 (E) 编辑 {E) 查看 (V) 帮助 (H 


EE Mf | mm @ 


7 localhost (QEMU) 


3.2 在 KVM 管理 器 中 同时 启动 3 个 虚拟 机 


选中 其 中 的 一 个 虚拟 机 ， 我 们 可 以 进入 虚拟 机 管理 设置 界面 ， 如 图 3.3 AAS. 
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2% Processor 
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3.3 KVM 虚拟 机 管理 设置 
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常用 的 虚拟 化 软件 系统 有 _ 
系统 虚拟 化 具有 

.系统 虚拟 化 可 分 为 5 Pa os ok Oa a 
.服务 器 虚拟 化 按照 其 虚拟 化 的 部 件 可 分 为 ” 

. 什么 是 广义 虚拟 化 技术 ? 
.虚拟 化 技术 有 哪些 优势 和 劣势 ? 


. Popek 和 Goldberg 指出 : 虚拟 机 具有 
.虚拟 化 技术 从 计算 体系 结构 层次 上 可 分 为 以 下 5 种 类 型 : 


© 


3 个 特点 。 


上 = ee 


@ 集群 系统 上 的 开发 工具 更 成 熟 ， 而 传统 的 并 行 计 算 机 上 缺乏 一 个 统一 的 标准 ; 
© 集群 系统 价格 便宜 并 且 易 于 构建 ; 
© 集群 系统 的 可 扩 放 性 展 好 ， 节 点 的 性 能 也 很 容易 通过 增加 内 存 或 改善 处 理 器 性 能 获得 


集群 系统 具有 以 下 重要 特征 : 

DO 集群 系统 的 各 节点 都 是 一 个 完整 的 系统 , 节点 可 以 是 工作 站 , 也 可 以 是 PC Bk SMP 器 ; 

@ 互联 网 络 通常 使 用 商品 化 网 络 ， 如 以 太 网 、FDDI、 光 纤 通 道 和 ATM 开关 等 ， 部 分 商 
用 集群 系统 也 采用 专用 网 络 互联 ; 

@ 网 络 接口 与 节点 的 VO 总 线 松 耦合 相连 ; 

@ 各 节点 有 一 个 本 地 磁盘 ; 

@ 各 节点 有 自己 的 完整 的 操作 系统 。 

集群 系统 作为 一 种 可 扩 放 并 行 计 算 体 系 ， 与 SMP. MPP 体系 具有 一 定 的 重 亚 性 ， 三 者 之 
间 的 界限 是 比较 模糊 的 ,有些 MPP 系统 如 IBM SP2, 采用 了 集群 技术 , 因此 也 可 以 把 它 划 归 为 
集群 系统 。 在 表 4.1 中 给 出 了 这 三 种 体系 特性 的 比较 ， 其 中 DSM 表示 分 布 式 共享 内 存 。 

MPP 通常 是 一 种 无 共享 (Shared 一 Nothing) 的 体系 结构 ， 节 点 可 以 有 多 种 硬件 构成 方式 ， 不 
过 大 多 数 只 有 主 存 和 处 理 器 。SMP 可 以 认为 是 一 种 完全 共享 (Shared 一 Everything) 的 体系 结构 ， 
所 有 的 处 理 器 共享 所 有 可 用 的 全 局 资源 (总 线 、 内 存 和 I/O 等 )。 对 于 集群 来 说 ， 集 群 的 节点 复 
杂 度 通常 比 MPP 高 ， 因 为 各 集群 节点 都 有 自己 的 本 地 磁盘 和 完整 的 操作 系统 ; MPP 的 节点 通 
党 没有 磁盘 ,并 且 可 以 只 是 使 用 一 个 微 内 核 ， 而 不 是 一 个 完整 的 操作 系统 ; SMP 服务 器 则 比 一 
个 集群 节点 要 复杂 ， 因 为 它 有 更 多 的 外 设 终 端 ， 如 终端 、 打 印 机 和 外 部 RAID 等 。 


表 4.1 SMP、MPP、 ee 


节点 数量 (Vy bk O(10) rr O(1000) ws O(10) je 
节点 复杂 度 细 粒 度 或 中 粒度 中 粒度 或 相 粒 度 


aaa 消息 传递 或 共享 变 | 
节点 间 通信 共享 存储 器 lc DSM 消息 传递 
个 


支持 单一 系统 问 像 希望 

地 址 空间 Coe ee 多 个 

作业 调度 LLM a 了 队列 | 协作 多 队列 
网 络 协议 标准 或 非 标准 
可 用 性 高 可 用 或 容错 
性 能 /价格 比 See ase 高 


互联 网 络 总 线 /交叉 开关 商用 


集群 系统 不 仅 带 来 了 上 述 研究 方向 , 同时 也 带 来 了 不 少 具 有 挑战 性 的 设计 间 题 , 如 可 用 性 、 
好 用 性 、 良 好 的 性 能 、 可 扩 放 性 等 。 所 以 在 集群 系统 的 设计 中 要 考虑 5 个 关键 问题 ， 可 用 性 、 
单一 系统 映像 、 作 业 管 理 、 并 行文 件 系统 和 高 效 通信 。 

(1) 可 用 性 : 如 何 充分 利用 集群 系统 中 的 元 余 资 源 ， 使 系统 在 尽 可 能 长 的 时 间 内 为 用 户 服 
务 。 集 群 系统 有 一 个 可 用 性 的 中 间 层 ， 它 使 集群 系统 可 以 提供 检查 点 、 故 障 接管 、 错 误 恢复 以 
及 所 有 节点 上 的 容错 支持 等 服务 。 

(2 ) 单一 系统 映像 SSI (Single System Image ) : 集群 系统 与 一 组 互联 工作 站 的 区 别 在 于 ， 
集群 系统 可 以 表示 为 一 个 单一 系统 。 集群 系统 中 也 有 一 个 单一 系统 映像 的 中 间 层 ， 它 通 过 组 合 
各 节点 上 的 操作 系统 提供 对 系统 资源 的 统一 访问 。 | 

(3) 作业 管理 (ob Management): 因为 集群 系统 需要 获得 较 高 的 系统 使 用 率 ， 集群 系统 上 的 
作业 管理 软件 需要 提供 批 处 理 、 负 载 平 衡 、 并 行 处 理 等 功能 。 

(4) 并 行文 件 系 统 PFS: 由 于 集群 系统 上 的 许多 并 行 应 用 要 处 理 大 量 数 据 ， 需 进行 大 量 的 
1/O 操作 ， 而 这 些 应 用 要 获得 高 性 能 ， 就 必须 要 有 一 个 高 性 能 的 并 行 支持 文件 。 

(5 ) 高 效 通信 (E 伍 cient Communication): 集群 系统 比 MPP 机 璐 更 需要 一 个 高 效 的 通信 子 系 
统 ， 因 为 集群 系统 有 以 下 几 点 。(WW 市 点 复杂 度 高 ， 厅 合 不 可 能 像 MPP 那样 紧密 。@ 节 点 间 的 
连接 线路 比较 长 , 市 来 了 较 大 的 通信 延 久 ， 同 时 也 市 来 了 可 靠 性 、 时 钟 扭 任 (Clock Shew) 和 串 道 
(Cross 一 Talking) 等 问题 。 @) 集 群 系统 一 般 使 用 标准 通信 协议 下 的 商品 化 网 络 , 标准 的 通信 协议 开 
销 比较 大 ， 影 响 到 系统 的 性 能 ， 而 性 能 较 好 的 低级 通信 协议 缺乏 一 个 统一 的 标准 。 


4.2 ”集群 系统 的 分 类 


传统 的 集群 系统 可 以 分 为 以 下 4 类 。 

(1) 高 可 用 性 集群 系统 。 

高 可 用 性 集群 系统 通常 通过 备份 节点 的 使 用 来 实现 整个 集群 系统 的 高 可 用 性 , 活动 节点 失 
效 后 备份 节点 自动 接替 失效 节点 的 工作 。 高 可 用 性 集群 系统 就 是 通过 节点 宛 余 来 实现 的 ， 一 般 
这 类 集群 系统 主要 用 于 支撑 关键 性 业务 的 需要 ， 从 而 保证 相关 业务 的 不 间断 服务 。 

(2) 负载 均衡 集群 系统 。 

负载 均衡 集群 系统 中 所 有 节点 都 参与 工作 ， 系 统 通 过 管理 节点 ( 利用 轮 询 算法 、 最 小 负载 
优先 算法 等 调度 算法 ) 或 利用 类 似 一 致 性 哈 希 等 负载 均衡 算法 实现 整个 集群 系统 内 负载 的 均衡 
分 配 。 

(3 ) 高 性 能 集群 系统 。 

高 性 能 集群 系统 主要 是 追求 整个 集群 系统 计算 能 力 的 强大 ， 其 目的 是 完成 复杂 的 计算 任 
务 ， 在 科学 计算 中 常用 的 集群 系统 就 是 高 性 能 集群 系统 ， 目 前 物理 、 生 物 、 化 学 等 领域 有 大 量 
的 高 性 能 集群 系统 提供 服务 。 

(4) 虚拟 化 集群 系统 。 

在 虚拟 化 技术 得 到 广泛 使 用 后 ， 人 们 为 了 实现 服务 器 资源 的 充分 利用 和 切 分 ， 将 一 台 服 务 
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器 利用 虚拟 化 技术 分 割 为 多 台独 立 的 虚拟 机 使 用 ,并 通过 管理 软件 实现 虚拟 资源 的 分 配 和 管理 。 
这 类 集群 系统 称 为 虚拟 集群 系统 ， 其 计算 资源 和 存储 资源 通常 是 在 一 台 物 理 机 上 。 利 用 虚拟 化 
集群 系统 可 以 实现 虚拟 桌面 技术 等 云 计算 的 典型 应 用 。 

目前 基于 集群 系统 结构 的 云 计算 系统 往往 是 几 类 集群 系统 的 综合 , 集群 系统 式 云 计 算 系 统 
既 需 要 满足 高 可 用 性 的 要 求 又 尽 可 能 地 在 节点 间 实 现 负载 均衡 ， 同 时 也 需要 满足 大 量 数 据 的 处 
理 任务 ， 所 以 像 Hadoop、HPCC 这 类 云 计算 大 数据 系统 中 前 三 类 集群 系统 的 机 制 都 存在 。 而 
在 基于 虚拟 化 技术 的 云 计算 系统 中 采用 的 往往 是 虚拟 化 集群 系统 。 


4.3 ”单一 系统 映射 


云 计 算 系 统 需要 将 计算 资源 和 存储 资源 形成 一 个 统一 的 资源 池 ， 目 前 基于 集群 系统 技术 的 
云 计算 系统 如 Hadoop 等 ， 从 使 用 者 来 看 并 不 需要 了 解 集群 系统 的 具体 结构 ， 也 不 需要 分 别 对 
集群 系统 中 的 每 一 个 节点 进行 操作 , 系统 对 外 都 有 一 个 统一 的 接口 , 这 就 是 单一 系统 映像 技术 。 

单一 系统 映像 SSI 是 集群 系统 的 一 个 重要 特征 ， 使 用 它 使 得 集群 系统 在 使 用 、 控 制 、 管 理 
和 维护 上 更 像 一 个 工作 站 。 单 一 系统 映像 可 以 市 来 以 下 好 处 : 

(1) 终端 用 户 不 需要 了 解 应 用 在 哪些 证 点 上 运行 ; 

(2 ) 操作 员 不 需要 了 解 资源 所 在 地 位 置 ; 

(3) 降低 了 操作 员 错 误 带 来 的 风险 ， 使 系统 对 终端 用 户 表 现 出 更 高 的 可 靠 性 和 可 用 性 ; 

(4) 可 以 灵活 地 采用 集中 式 或 分 布 式 的 管理 或 控制 ， 避 免 了 对 系统 管理 员 的 高 需求 ; 

(5) 大 大 地 简化 了 系统 的 管理 ， 一 条 命令 就 可 以 对 分 布 在 系统 中 的 多 个 资源 进行 操作 ; 

(6) 提供 了 位 置 独立 的 消息 通信 。 

单一 系统 映像 包括 以 下 含义 。 

(1) 单一 系统 。 

尽管 系统 中 有 多 个 处 理 器 ， 用 户 依然 把 整个 集群 系统 视 为 一 个 单一 的 系统 来 使 用 ， 例 如 ， 
与 分 布 式 系统 不 一 样 ， 用 户 可 以 告诉 系统 : “用 4 个 处 理 器 来 执行 我 的 应 用 程序 ”。 

(2) 单一 控制 。 

逻辑 上 ， 最 终 用 户 或 系统 用 户 使 用 的 服务 都 来 自 只 有 惟一 接口 的 同一 个 地 方 ， 例 如 ， 一 个 
用 户 将 批 处 理 作 业 提 交 到 一 个 队列 集 ， 系 统管 理 员 就 可 以 从 一 个 单一 的 控制 点 配置 集群 系统 的 
所 有 软 、 硬 件 组 件 。 

(3) 对 称 性 。 

用 户 可 以 从 任 一 个 节点 上 获得 集群 服务 ， 也 就 是 说 ， 对 于 所 有 的 节点 和 所 有 的 用 户 ， 除 了 
那些 对 一 般 访 问 权 限 作 保护 的 服务 和 功能 外 ， 所 有 的 集群 服务 和 功能 性 都 是 对 称 的 。 

(4) 位 置 透明 。 

用 户 不 用 了 解 真正 执行 服务 的 物理 设备 位 置 。 

在 云 计 算 系 统 中 实现 单一 系统 映射 可 以 保证 云 计算 复杂 的 集群 结构 及 集群 节点 间 的 相互 
关系 对 于 用 户 是 透明 的 ， 系 统 向 用 户 屏蔽 了 内 部 的 复杂 性 ， 云 计算 系统 的 使 用 者 只 需要 面 对 一 


个 统一 的 访问 接口 就 能 实现 对 云 计 算 系统 资源 的 访问 。 这 种 做 法 使 云 计 算 系 统 从 逻辑 上 看 上 去 
更 像 一 个 统一 的 巨大 的 资源 池 ， 资 源 池 大 小 的 动态 变化 及 结构 被 系统 所 封装 。 


4.4 Beowulf 集群 


Beowulf 集群 是 一 种 用 作 并 行 计 算 的 集群 架构 ， 通 党 是 由 一 台 主 节点 和 一 台 以 上 的 子 节点 
通过 以 太 网 或 其 他 网 络 连接 的 系统 , 它 采 用 市 面 上 可 以 购买 的 普通 硬件 ( 如 装 有 Linux 的 PC )、 
标准 以 太 网 卡 和 交换 机 ， 它 不 包含 任何 特殊 的 硬件 设备 ， 可 以 重新 组 建 。Beowulf 一 词 起 源 于 
一 首 现存 的 最 古老 的 英语 史诗 ， 比 喻 以 较 低 的 成 本 实现 与 干 百 万 用 户 之 间 的 计算 机 资源 共享 。 
Beowulf 集群 的 出 现 为 并 行 计 算 技术 的 普及 提供 了 可 能 ， 使 从 前 只 有 高 端 用 户 才 有 机 会 使 用 的 
高 性 能 计算 系统 现在 可 以 在 普通 实验 室 使 用 。 

1994 年 第 一 个 Beowulf 系统 诞生 时 使 用 的 是 100MHz 的 Intel 80486 芯片 DX4， 在 1994 年 
Beowulf 系统 的 主要 瓶颈 在 于 处 理 器 的 速度 。1998 年 在 美国 Los Alamos 国家 实验 室 的 一 个 
Beowulf 集群 Avalon 用 140 块 533 MHz Alpha 微 处 理 器 ( 21164A ) 建 成 。 每 个 节点 有 256 MB 
内 存 和 3 GB 的 硬盘 空间 。 这 些 节 点 通过 快速 以 太 网 的 PCI 卡 连接 。 它 运行 在 RedHat Linux 
5.0 上 。 依 据 Linpack benchmark 测试 结果 ，Avalon 集群 的 运行 速度 为 每 秒 477 亿 次 浮 点 运算 
(47.7 Gflops ) 。 它 价 值 大 约 31.3 万 美元 ， 并 且 在 价格 性 能 比方 面 ， 它 排 在 Silicon Graphics 的 
Origin 2000 64 位 处 理 器 之 上 , 后 者 有 相同 数量 的 Gflops 而 价值 大 约 180 万 美元 。 但 随 着 处 理 
器 远大 于 存储 器 的 速度 及 总 线 带宽 的 速度 发 展 ， 如 今 带 宽 已 经 成 为 制约 Beowulf 系统 性 能 的 主 
要 因素 ， 系 统 的 综合 效率 对 系统 内 的 带宽 有 很 强 的 依赖 性 。 

Beowulf 系统 这 种 诞生 于 面向 计算 时 代 的 产物 ， 在 云 计算 时 代 再 次 被 人 们 所 重视 ，Google 
在 早期 单 次 点 击 所 获得 收益 很 小 的 情况 下 不 得 已 采用 了 廉价 服务 器 来 构建 自己 的 搜索 系统 ， 却 
意外 地 成 就 了 云 计 算 的 出 现 。 开 源 的 Hadoop 系统 也 继承 了 这 一 理念 ， 利 用 廉价 服务 器 搭建 大 
数据 处 理 系统 。 容 错 机 制 的 出 现 使 系统 对 服务 器 可 靠 性 的 要 求 降低 ， 单 个 节点 的 性 能 和 失效 对 
整个 系统 的 性 能 和 正常 工作 影响 很 小 。 

Beowulf 系统 的 特点 如 下 。 

(1) Beowulf 系统 通常 由 一 个 管理 节点 和 多 个 计算 节点 构成 。 它 们 通过 以 太 了 网 (或 其 他 网 络 ) 
连接 。 管 理 节 点 监控 计算 节点 ， 通 常 也 是 计算 节点 的 网 关 和 控制 终端 。 当 然 它 通 常 也 是 集群 系 
统 文件 服务 器 。 在 大 型 的 集群 系统 中 ， 由 于 特殊 的 需求 ， 这 些 管理 节点 的 功能 也 可 能 由 多 个 节 
FAD HE 

(2) Beowulf Ati Fs He As LEIA, PS, PC. VAP AIDA AERA. 
Beowulf 系统 很 少 包含 用 户 定制 的 特殊 设备 。 

( 3 ) Beowulf 系统 通常 采用 那些 廉价 且 广 为 传播 的 软件 ,例如 ，Linux 操作 系统 、 并 行 虚拟 
机 (PVM ) 和 消息 传递 接口 (MPI) 。 

对 于 Beowulf 系统 我 们 可 以 用 图 4.1 来 形象 地 表示 它 与 其 他 并 行 机 系统 的 区 别 。 
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4.1 Beowulf 系统 与 其 他 并 行 计算 机 的 对 比 


4.1 形象 地 表明 了 Beowulf 采用 廉价 通用 设备 实现 了 大 型 计算 机 的 计算 能 力 ， 体 现 了 群 
体 性 能 集成 的 力量 ,这 也 是 我 们 采用 Beowulf 系统 的 实质 所 在 ， 云 计算 计算 资源 池 的 形成 思想 
与 Beowulf 系统 十 分 相近 。 

由 于 Beowulf 系统 采用 普通 廉价 设备 构建 并 行 计 算 机 系统 ， 可 以 在 普通 实验 室 环境 下 实现 
高 性 能 计算 。 如 图 4.2 所 示 是 成 都 信息 工程 学 院 并 行 计 算 实 验 室 采用 多 台 普 通 PC 构建 的 一 个 
Beowulf 系统 。 


4.2 Beowulf 系统 实例 


Beowulf 系统 的 理念 在 云 计算 和 大 数据 领域 得 到 了 很 好 的 应 用 ， 从 Google 的 搜索 系统 ， 到 
开源 的 Hadoop 都 强调 自己 的 系统 是 面向 廉价 服务 器 集群 而 设计 的 。 单 节点 的 高 速度 已 不 是 惟 
一 的 追求 了 , 利用 良好 的 集群 系统 架构 实现 对 廉价 服务 器 资源 的 整合 , 大 大 节省 了 建设 的 成 本 。 
个 体 的 弱小 和 不 稳定 与 整体 的 强大 和 稳定 在 这 里 形成 了 完整 的 统一 。 
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4.5 ”集群 文件 系统 


4.5.1 ”集群 文件 系统 概念 


数据 的 存储 一 直 是 人 类 在 不 懈 研 究 的 内 容 之 一 , 最 早 的 原始 人 类 采用 结 绳 记事 的 方式 实现 
数据 的 记录 和 存储 ， 后 来 中 国 商 代 利用 甲骨 作为 信息 存储 的 载体 ( 见 图 4.3 ) ,竹简 作为 的 信息 
载体 的 时 代 大 约 出 现在 西周 和 春秋 时 期 ,竹简 是 中 国 历史 上 使 用 时 间 最 长 的 信息 记录 载体 之 一 ， 
公元 二 世纪 初 ， 东 汉化 伦 改进 造纸 术 成 功 ， 纸 张 从 此 在 长 达 一 干 多 年 的 时 间 里 成 为 了 主要 的 信 
息 记 录 载 体 ， 直 到 今天 我 们 仍然 在 使 用 纸张 这 一 信息 记录 载体 。 

计算 机 的 出 现 使 信息 的 记录 方式 再 次 发 生 了 巨大 的 变化 , 计算 机 的 信息 记录 方式 从 穿孔 纸 
TH. Waris. Meo BRE TEAR. Flash 心 厂 ， 几 十 年 的 时 间 使 人 类 对 信息 的 记录 能 力 实现 了 多 个 
数量 级 的 跃迁 。 


43 信息 存储 载体 一 一 甲骨 


信息 记录 方式 可 以 说 一 直 伴随 着 人 类 历史 的 发 展 , 云 计 算 技 术 的 发 展 文 件 系统 技术 是 其 中 
的 重要 部 分 ， 数 据 的 存储 方式 对 云 计 算 系 统 染 构 有 着 重要 的 影响 。 传 统 的 存储 方式 一 般 是 基于 
集中 部 署 的 磁盘 阵列 ， 这 种 存储 方式 结构 简单 使 用 方便 ， 但 数据 的 集中 存放 在 数据 使 用 时 不 可 
避免 地 会 出 现 数据 在 网 络 上 的 传输 ， 这 给 网 络 带 来 了 很 大 的 压力 。 随 着 大 数据 技术 的 出 现 ， 面 
向 数据 的 计算 成 为 云 计算 系统 需要 解决 的 问题 之 一 ， 集 中 的 存储 模式 更 是 面临 巨大 的 挑战 ， 寺 
算 向 数据 迁移 这 种 新 的 理念 ， 使 集中 存储 风光 不 在 ， 集 群 文件 系统 在 这 种 条 件 下 应 运 而 生 。 目 
前 常用 的 HDFS、GFS、Lustre 等 文件 系统 都 属于 集群 文件 系统 。 

集群 文件 系统 存储 数据 时 并 不 是 将 数据 放置 于 某 一 个 节点 存储 设备 上 , 而 是 将 数据 按 一 定 
的 策略 分 布 式 地 放置 于 不 同 物理 节点 的 存储 设备 上 。 和 集群 文件 系统 将 系统 中 每 个 节点 上 的 存储 
空间 进行 虚拟 的 整合 ， 形 成 一 个 虚拟 的 全 局 逻辑 目录 ， 集群 文件 系统 在 进行 文件 存 取 时 依据 逻 
辑 目 录 按 文件 系统 内 在 的 存储 策略 与 物理 存储 位 置 对 应 ， 从 而 实现 文件 的 定位 。 集 群 文件 系统 
相 比 传统 的 文件 系统 要 复杂 ， 它 需要 解决 在 不 同 节点 上 的 数据 一 致 性 问题 及 分 布 式 锁 机 制 等 问 
题 ， 所 以 集群 文件 系统 一 直 是 云 计 算 技术 研究 的 核心 内 容 之 一 。 
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在 云 计算 系统 在 采用 集群 文件 系统 有 以 下 几 个 优点 。 

(1) 由 于 集群 文件 系统 目 身 维护 着 逻辑 目录 和 物理 存储 位 置 的 对 应 关系 ， 集 群 文件 系统 是 
很 多 云 计算 系统 实现 计算 回 数 据 迁 移 的 基础 。 利 用 集群 文件 系统 可 以 将 计算 任务 在 数据 的 存储 
市 点 位 置 发 起 ， 从 而 避免 了 数据 在 网 络 上 传输 所 造成 的 拥塞 。 

(2) 集群 文件 系统 可 以 充分 利用 各 节操 的 物理 存储 空间 ,通过 文件 系统 形成 一 个 大 规模 的 
存储 池 ， 为 用 户 提供 一 个 统一 的 可 弹性 扩充 的 存储 空间 。 

(3) 利用 集群 文件 系统 的 备份 策略 、 数 据 切 块 策略 可 以 实现 数据 存储 的 高 可 靠 性 以 及 数据 
读 取 的 并 行 化 ， 提 高 数据 的 安全 性 和 数据 的 访问 效率 。 

(4) 利用 集群 文件 系统 可 以 实现 利用 廉价 服务 句 构 建 大 规模 高 可 靠 性 存储 的 目标 ,通过 备 
份 机 制 保证 数据 的 高 可 靠 性 和 系统 的 高 可 用 性 。 


4.5.2 ”典型 的 集群 文件 系统 Lustre 


Lustre 是 一 个 应 用 广泛 的 集群 文件 系统 ,Lustre 系统 适合 作为 并 发 要 求 不 是 很 高 的 云 平 台 
的 存储 模块 ， 因 为 所 有 的 数据 请 求 都 会 经 过 Lustre 系统 元 数据 服务 器 。 元 数据 服务 器 里 存放 
着 文件 系统 的 整个 基本 信息 ， 负 责 管理 整个 系统 的 命名 空间 ， 并 维护 整个 文件 系统 的 目录 结 
构 、 文 件 名 、 文 件 的 用 户 权限 ， 还 负责 维护 文件 系统 数据 的 一 致 性 。 这 就 有 可 能 造成 整个 数 
据 传输 在 高 并 发 时 的 瓶颈 。 因 此 ，Lustre 存储 系统 最 适合 的 应 用 场景 为 : 数据 请 求 传输 并 发 不 
是 太 高 但 数据 量 很 大 的 云 平台 , 例如 HP 公司 的 “ Storage Works Scalable File Share” ( HP SES, 
可 扩展 文件 共享 ) ， 是 首 球 采用 Lustre 技术 的 商业 化 产品 ， 而 英特尔 公司 在 2013 年 也 表示 ， 
在 发 布 的 Hadoop 发 行 版 2.5 版 本 中 加 入 对 Lustre 的 支持 能 力 。 由 此 可 见 ，Lustre 存储 系统 具 
备 支 撑 大 数据 存储 的 能 力 ， 下 面 先 对 Lustre 存储 系统 本 身 作 一 个 简单 的 介绍 。 

Lustre 存储 系统 是 高 性 能 分 布 式 存储 领域 中 最 为 著名 的 系统 之 一 ， 在 全 球 ， 有 过 半 的 超级 
计算 中 心 使 用 Lustre 存储 系统 ， 随 着 Lustre 存储 系统 的 发 展 ， 越 来 越 多 的 中 大 型 计算 中 心 和 集 
成 平台 都 在 采用 Lustre 存储 系统 。 追 朔 其 起 源 ，Lustre 名 字 是 由 Linux 和 Clusters 派生 而 来 ， 是 
为 解决 海量 存储 问题 而 设计 的 全 新 文件 系统 , 是 HP. Intel, Cluster File System 公司 联合 美国 能 
源 部 开发 的 Linux 集群 并 行文 件 系 统 , 它 来 源 于 卡耐基 梅 隆 大 学 的 NASD 项 目 研究 工作 。Lustre 
是 基于 对 象 的 存储 系统 , 能 支持 10000 个 节点 , PB 级 别 的 存储 量 , 峰值 达到 100GB/s 的 传输 速 
度 ， 是 一 个 优秀 的 安全 可 靠 、 易 于 管理 的 大 数量 级 高 性 能 存储 系统 。 

1. Lustre 存储 系统 的 优点 

通过 接口 提供 高 性 能 传输 的 数据 共享 ， 具备 并 行 访问 的 能 力 ， 在 数据 高 并 发 交互 时 ， 系 统 
能 对 上 传 、 下 载 的 数据 操作 进行 负载 均衡 ，Lustre 存储 系统 采用 双 网 分 离 的 方式 和 分 布 式 的 锁 
管理 机 制 来 实现 并 发 控制 ,元 数据 所 走 的 网 络 和 文件 数据 传输 的 所 走 的 网 络 不 同 ,元 数据 的 VFS 
( Virtual File System， 存 储 数 据 的 逻辑 视图 ) 部 分 通 和 党 是 元 数据 服务 器 10% 的 负载 ， 剩 下 90% 的 
工作 由 分 布 在 各 个 节点 的 数据 所 在 服务 器 完成 。 

Lustre 存储 系统 能 够 在 不 影响 现行 网 络 的 情况 下 弹性 扩充 系统 的 存储 容量 ， 还 能 增加 节点 


数 来 扩充 网 络 带宽 ， 具 备 灵活 的 扩展 性 。 

在 发 生 访 问 故障 时 ，Lustre 还 能 对 元 数据 进行 切换 , 具备 访问 的 稳定 可 徘 性 ，Lustre 系统 中 
可 以 拥有 两 个 元 数据 服务 器 ， 采 用 Active-Standby ( 主 备 方式 ， 指 一 台 服 务 顺 处 于 某 种 业务 的 
激活 状态 时 ， 即 Active 状态 时 ， 另 一 台 服 务 器 处 于 该 业务 的 备用 状态 ， 即 Standby 状态 ) 的 机 
制 ， 当 一 台 服 务 器 坏 掉 时 ， 马 上 切换 到 另外 一 个 备份 服务 升 。 

提供 相对 健全 的 接口 给 用 户 进 行 二 次 开发 ， 以 满足 不 同 需求 的 项 目 ， 例 如 一 个 在 线 网 盘存 
储 的 项 目 就 可 以 通过 Lustre 存储 系统 提供 的 接口 进行 上 层 开 发 ， 网 盘 系 统 里 所 有 用 户 所 存储 的 
文件 都 最 终 存储 在 Lustre 存储 系统 中 ， 而 对 于 用 户 来 说 则 是 透明 的 ， 用 户 只 需 面 对 网 盘 系 统 的 
视图 ， 同 时 Lustre 存储 系统 本 身 属 于 开源 项 目 ， 对 有 条 件 的 技术 工程 师 来 说 ， 可 以 进行 改造 并 
加 以 优化 。 

2. Lustre 存储 系统 的 缺点 

与 其 他 很 多 能 支持 多 操作 系统 平台 安 交 部 戎 的 开源 系统 不 同 ， Lustre 存储 系统 只 能 部 署 在 
Linux 操作 系统 上 ， 其 核心 程序 很 依赖 Linux 操作 系统 的 内 核 和 底层 文件 操作 方法 。 

对 于 存储 系统 来 说 ， 节 点 之 间 的 故障 是 一 个 常见 的 问题 ,存储 系统 要 考虑 市 点 间 故 障 时 如 
何 快速 恢复 正常 。Lustre 在 遇 到 这 样 的 故障 时 ,恢复 正常 势必 要 进行 切换 ， 切 换 的 条 件 则 需 依 
赖 于 第 三 方 的 心跳 技术 (heartbeat ) ，heartbeat 包含 心跳 监测 和 资源 接管 两 个 核心 模块 ,心跳 监 
测 可 以 通过 网 络 链 路 和 串口 进行 ， 而 且 支 持 风 余 链 路 ， 它 们 之 间 相 互 发 送 报 文 来 告诉 对 方 自己 
当前 的 状态 ， 如 果 在 指定 的 时 间 内 未 收 到 对 方 发 送 的 报 文 ， 那 么 就 认为 对 方 失效 ， 这 时 需 启 动 
资源 接管 模块 来 接管 运行 在 对 方 主机 上 的 资源 或 者 服务 。 

最 重要 的 一 点 ，Lustre 存储 系统 本 吴 不 具备 数据 目 备份 的 能 力 ， 也 就 意味 着 使 用 Lustre 
存储 系统 作为 存储 方案 时 , 在 系统 开发 之 前 , 一 定 要 规划 一 套 在 其 上 层 开 发 的 存储 备份 方案 ， 
也 就 是 在 写 入 Lustre 存储 资源 池 的 同时 ， 要 通过 上 层 软 件 青 把 数据 写 一 份 到 其 他 存储 资源 池 
来 备用 。 

3. Lustre 存储 系统 的 组 成 

(1) TORR FF 

元 数据 服务 器 (Metadata Server，MDS) 负 责 管理 文件 系统 的 基本 信息 ， 

ain x 间 ， 维 护 整个 文件 系统 的 目录 结构 、 用 户 权限 ， 并 负责 维护 文件 系统 数据 的 一 致 性 。 

过 MDS 的 文件 和 目录 访问 管理 , Lustre 能 够 控制 客户 端 对 文件 系统 中 文件 和 目录 的 创建 、 Se 
修改 。Client 可 以 通过 MDS 读 取 保存 到 元 数据 存储 节点 (MDT, Metadata Target，MDT) 上 的 
元 数据 。 当 Client 读 写 文件 时 ,从 MDS 得 到 文件 信息 ,从 OSS 中 得 到 数据 。Client 通过 LNET 
协议 和 MDS/OSS 通信 。 在 Lustre 中 ，MDS 可 以 有 两 个 ， 采 用 Active-Standby 的 容错 机 制 ， 当 
其 中 一 个 MDS 不 能 正常 工作 时 ， 另 外 一 个 后 备 MDS 可 以 启动 服务 。 

(2) 元 数据 存储 节点 。 

元 数据 存储 节点 (Metadata Target, MDT) 负 责 存 储 元 数据 服务 器 所 要 管理 的 元 数据 的 文件 
名 、 目 录 、 权 限 和 文件 布局 ， 一 个 文件 系统 有 且 只 能 有 一 个 MDT, 不 同 的 MDS 之 间 共 享 同一 
个 MDT。 


(3 ) 对 象 存储 服务 器 。 

对 象 存储 服务 器 (Object Storage Servers，OSS) 提 供 针 对 一 个 或 多 个 的 本 地 OST 网 络 请 求 和 
文件 I/O FRA, OST. MDT 和 Client 可 以 同时 运行 在 一 个 节点 。 但 是 典型 的 配置 是 一 个 MDT 
专用 一 个 节点 ， 每 个 OSS 节点 可 以 有 两 个 或 多 个 OST， 一 个 客户 端 可 以 有 大 量 的 计算 节点 。 

(4) NAHB A. 

OST (Object Storage Target，OST) 负 责 实 际 数据 的 存储 , 处 理 所 有 客户 端 和 物理 存储 之 间 的 
交互 。 这 种 存储 是 基于 对 象 的 ，OST 将 所 有 的 对 象 数据 放 到 物理 存储 设备 上 ， 并 完成 对 每 个 对 
象 的 管理 。OST 和 实际 的 物理 存储 设备 之 间 通 过 设备 驱动 方式 来 实现 交互 。 通 过 驱动 程序 的 事 
件 啊 应 ，Lustre 能 继承 新 的 物理 存储 技术 及 文件 系统 ， 实 现 对 物理 存储 设备 的 扩展 。 为 了 满足 
高 性 能 计算 系统 的 需要 ，Lustre 针对 大 文件 的 读 写 进行 优化 ， 为 集群 系统 提供 较 高 的 VO 吞吐 
率 。Lustre 将 数据 条 块 化 , 下 把 数据 分 配 到 各 个 存储 服务 器 上 , 以 提供 比 传统 SAN 的 “ 块 共 享 ” 
更 为 灵活 和 可 靠 的 共享 方式 。 

(5) & Pitt. 

客户 端 〈Client ) 通过 标准 的 POSIX 接口 向 用 户 提 供 对 文件 系统 的 访问 。 对 客户 端 而 言 ， 
客户 端 同 OST 进行 文件 数据 的 交互 ， 包 括 文件 数据 的 读 写 、 对 象 属 性 的 改动 等 ; 同 MDS 进行 
元 数据 的 交互 ， 包 括 目录 管理 、 命 名 空间 管理 等 。 存 储 设 备 是 基于 对 象 的 智能 存储 设备 ， 与 基 
于 块 的 IDE 存储 设备 不 同 。 客 户 端 在 需要 访问 文件 系统 的 文件 数据 时 ， 先 访问 MDS， 获 取 文 
件 相 关 的 元 数据 信息 ,然后 就 直接 和 相关 的 OST 通信 , 获取 文件 的 实际 数据 。 客 户 端 通过 网 络 
读 取 服务 器 上 的 数据 ， 存 储 服 务 器 负责 实际 文件 系统 的 读 写 操作 以 及 存储 设备 的 连接 ， 元 数据 
服务 器 负责 文件 系统 目录 结构 、 文 件 权 限 和 文件 的 扩展 属性 以 及 维护 整个 文件 系统 的 数据 一 致 
性 和 响应 客户 端的 请 求 。 


4.6 分布 式 系 统 中 计算 和 数据 的 协作 机 制 


计算 和 存储 也 是 云 计算 系统 研究 的 核心 问题 , 分 布 式 系统 中 计算 和 数据 的 协作 关系 非常 重 
要 ， 在 分 布 式 系统 中 实施 计算 都 存在 计算 如 何 获得 数据 的 问题 ， 在 面向 计算 时 代 这 一 问题 并 不 
突出 ， 在 面向 数据 时 代 计 算 和 数据 的 协作 机 制 问题 就 成 为 了 必需 考虑 的 问题 ， 通 前 这 种 机 制 的 
实现 与 系统 的 架构 有 紧密 的 关系 ， 系 统 的 基础 染 构 决定 了 系统 计算 和 数据 的 基本 协作 模式 ， 下 
面 以 几 种 常见 的 分 布 式 系统 为 例 对 其 计算 和 数据 的 协作 机 制 进行 分 析 对 比 。 


4.6.1 基于 计算 切 分 的 分 布 式 计算 


在 硬件 为 核心 的 时 代 , 高 性 能 计算 从 以 Cray C-90 为 代表 的 并 行 向 量 处 理 机 发 展 到 以 IBM 
R50 为 代表 的 对 称 多 处 理 器 机 (SMP) 最 终 到 工作 站 集群 (COW) 及 Beowulf 集 群 结构 ， 这 一 过 程 
对 应 的 正 是 CPU 等 硬件 技术 的 高 速 发 展 , 可 以 采用 便宜 的 工作 站 甚至 通用 的 PC 来 架构 高 性 能 
系统 ， 完 成 面向 计算 的 高 性 能 计算 任务 。 


基于 消息 传递 机 制 的 并 行 计 算 技术 MPI (Message—Passing Interface) 帮 助 工 作 站 集群 和 
Beowulf 集群 实现 强大 的 计算 能 力 ， 提 供 了 灵活 的 编程 机 制 。MPI 的 标准 化 开始 于 1992 年 4 
月 , 美国 并 行 计 算 研究 中 心 在 弗吉尼亚 的 Wiliamburg 召开 消息 传递 标准 的 讨论 会 ， 讨论 了 消 
息 传递 接口 的 一 些 重要 基本 特征 ， 组 建 了 一 个 制定 消息 传递 接口 标准 的 工作 组 , 在 1993 年 2 
月 完成 了 修订 版 ， 这 就 是 MPI 1.0。1997 年 ，MPI 论坛 发 布 了 一 个 修订 标准 ， 叫 作 MPI-2, 
同时 原来 的 MPI 更 名 为 MPI-1。MPICH 为 MPI 标准 的 一 个 开源 实现 ， 目 前 已 被 广泛 应 用 于 
高 性 能 计算 领域 。 

MPI 将 大 量 的 节点 通过 消息 传递 机 制 连接 起 来 , 从 而 使 节点 的 计算 能 力 聚 集成 为 强大 的 高 
性 能 计算 ， 主 要 面向 计算 密集 的 任务 。MPI 提供 API 接口 ， 通 过 MPIL_Ssend0 和 MPL Recv0 等 
消息 通信 函数 实现 计算 过 程 中 数据 的 交换 。 高 性 能 计算 是 一 种 较为 典型 的 面向 计算 的 系统 ， 通 
常 处 理 的 是 计算 密集 型 任务 ， 因 此 在 基于 MPI 的 分 布 式 系统 中 并 没有 与 之 匹配 的 文件 系统 支 
持 ， 计 算 在 发 起 前 通过 NFS 等 网 络 文件 系统 从 集中 的 存储 系统 中 读 出 数据 并 用 于 计算 。 基 于 
MPI 的 分 布 式 系统 的 典型 系统 结构 如 图 4.4 AAR. 
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4.4 MPI 的 典型 系统 架构 


如 图 4.4 所 示 , 典型 的 利用 MPI 实现 的 分 布 式 计算 系统 在 发 起 计算 时 实际 上 是 首先 将 计算 
程序 由 主 节点 通过 NFS 等 网 络 共享 文件 系统 分 发 到 各 子 市 点 内 存 启动 计算 , 由 于 没有 分 布 式 文 
件 系统 的 支持 ，MPI 一 般 不 能 直接 从 节点 存储 设备 上 读 取 数据 ， 计 算 程 序 在 子 市 点 发 起 后 只 有 
通过 网 络 共享 文件 读 取 需 要 处 理 的 数据 来 进行 计算 ， 在 这 里 数据 和 计算 程序 一 般 都 是 被 集中 存 
储 在 阵列 等 专门 的 存储 系统 中 。 这 一 过 程 并 没有 计算 寻找 数据 的 过 程 ， 计 算 程序 只 是 按 设 计 要 
求 先 被 分 发 给 了 所 有 参与 计算 的 节点 。 在 进行 MPI 并 行程 序 设 计时 , 程序 设计 者 需要 事先 将 计 
算 任务 本 身 在 程序 中 进行 划分 ， 计 算 程 序 被 分 配 到 节点 后 根据 判断 条 件 启动 相应 的 计算 工作 ， 
计算 中 需要 进行 节点 间 的 数据 交换 时 通过 MPI 提供 的 消息 传递 机 制 进行 数据 交换 。 由 于 CPU 
的 运行 速度 远 远 大 于 网 络 数据 传输 的 速度 ， 通 常 希望 不 同 节点 间 的 任务 关联 性 越 小 越 好 ， 在 
MPI 的 编程 实践 中 就 是 “用 计算 换 数据 通信 ”的 原则 ， 使 系统 尽 可 能 少 地 进行 数据 交换 。MPI 
的 消息 传递 机 制 为 计算 的 并 行 化 提供 了 灵活 的 方法 ， 但 目前 对 于 任意 问题 的 自动 并 行 化 并 没有 
非常 有 效 的 方法 ， 因 此 计算 的 切 分 工作 往往 需要 编程 人 员 目 己 根据 经 验 来 完成 ， 这 种 灵活 性 是 
以 增加 编程 的 难度 为 代价 的 。 
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基于 MPI 的 高 性 能 计算 是 一 种 典型 的 面向 计算 的 分 布 式 系统 , 这 种 典型 的 面向 计算 的 系统 
往往 要 求 节点 的 计算 能 力 越 强 越 好 ， 从 而 降低 系统 的 数据 通信 代价 。MPI 的 基本 工作 过 程 可 以 
总 结 为 : Waite, GOR, abit, a. MPI 虽然 是 典型 的 面向 计算 的 分 布 式 系 
统 ， 但 它 也 有 类 似 于 后 来 Google 系统 中 的 MapReduce 能 力 ， 如 MPI 提供 MPI_Reduce ( ) pK 
数 实现 Reduce 功能 ， 只 是 没有 像 GFS 的 分 布 式 文件 系统 的 支持 ，MPI 的 Reduce 能 力 是 相对 
有 限 而 低 效 的 ， 并 不 能 实现 计算 在 数据 存储 位 置 发 起 的 功能 。 

通常 将 MPI 这 样 以 切 分 计算 实现 分 布 式 计算 的 系统 称 为 基于 计算 切 分 的 分 布 式 计 算 系 统 。 
这 种 系统 计算 和 存储 的 协作 是 通过 存储 向 计算 的 迁移 来 实现 的 ， 也 就 是 说 系统 先 定位 计算 节点 
再 将 数据 从 集中 存储 设备 通过 网 络 读 入 计算 程序 所 在 的 节点 ， 在 数据 量 不 大 时 这 种 方法 是 可 行 
的 ， 但 对 于 海量 数据 读 取 这 种 方式 会 很 低 效 。 
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硬件 和 网 络 发 展 到 一 定 阶 段 后 ， 硬 件 价格 的 便宜 使 大 多 数 人 都 有 了 自己 的 个 人 电脑 ， 但 却 
出 现 了 一 方面 一 些 需要 大 量 计算 的 任务 资源 不 够 ， 另 一 方面 大 量 个 人 电脑 闲置 的 问题 。 得 益 于 
网 络 的 发 展 网 格 技术 正好 是 在 这 个 时 期 解决 这 一 矛盾 的 巧妙 方法 。 人 们 对 网 格 技术 的 普遍 理解 
是 : 将 分 布 在 世界 各 地 的 大 量 异 构 计 算 设 备 的 资源 整合 起 来 ， 构 建 一 个 具有 强大 计算 能 力 的 超 
级 计算 系统 。 

网 格 计 算出 现 于 20 世纪 90 年 代 ， 网 格 出 现 的 历史 背景 是 当时 全 世界 已 有 了 初步 的 网 络 ， 
硬件 价格 还 较 昂 贵 ,， 个 人 电脑 已 逐步 普及 ， 但 在 面 对 海量 计算 时 当时 的 计算 中 心 还 是 显得 力 不 
从 心 , 利用 世界 各 地 闲置 的 计算 资源 构建 一 个 超级 计算 资源 池 具 有 了 可 能 性 。 “计算 网 格 是 提 
供 可 靠 , 连续 、 普 遍 、 廉 价 的 高 端 计算 能 力 的 软 硬 件 基础 设施 ”。 建立 于 1998 年 的 全 球 网 格 论 
坛 (GGF) 在 2006 年 与 企业 网 格 联盟 (EGA) 合 并 成 为 开放 式 网 格 论坛 (OGF)， 这 一 组 织 的 目标 是 
为 网 格 计算 定义 相关 的 开放 标准 。 美 国 Argonne 国家 实验 室 与 南 加 州 大 学 信息 科学 学 院 合作 开 
发 的 Globus 工具 包 实 现 了 这 些 标准 ， 这 个 工具 箱 已 经 成 为 网 格 中 间 件 事实 上 的 标准 。 

一 种 典型 的 被 大 家 所 熟悉 的 网 格 染 构 如 图 4.5 所 示 。 
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4.5 典型 网 格 系统 的 基本 架构 


如 图 4.5 所 示 的 网 格 系统 往往 事先 会 将 计算 程序 以 某 种 形式 安装 ( 如 屏幕 保护 程序 ) 在 异 


构 计 算 终端 服务 器 上 ， 用 于 监控 计算 终端 的 工作 状态 ， 当 计算 终端 空闲 时 就 会 启动 计算 程序 对 
数据 进行 处 理 ， 网 格 服务 器 则 负责 切 分 数据 向 计算 终端 分 发 数据 并 汇总 计算 结果 。 网 格 系统 的 
数据 逻辑 上 也 是 集中 存储 的 ， 网 格 服务 器 负责 切 分 数据 并 向 计算 终端 传送 需要 计算 的 数据 块 。 
在 这 种 系统 结构 下 计算 和 数据 的 协作 机 制 是 通过 数据 来 寻找 计算 实现 的 ， 即 在 网 格 中 移动 的 主 
要 是 数据 而 不 是 计算 , 这 种 情况 在 数据 量 较 小 时 是 容易 实现 的 , 但 如 果 需 要 处 理 的 数据 量 很 大 ， 
那么 这 种 以 迁移 数据 为 主 的 方法 就 显得 很 不 方便 了 。 在 网 格 系统 中 计算 是 先 于 数据 到 达 计 算 终 
端的 ， 这 与 MPI 十 分 相似 ,数据 是 由 计算 程序 主动 发 起 请 求 获得 ， 从 而 实现 计算 和 数据 的 一 致 
性 。 总 体 来 看 ， 网 格 系统 既 具 有 面向 数据 系统 中 切 分 数据 来 实现 分 布 式 计 算 的 思想 ， 又 具有 面 
向 计算 的 系统 中 计算 向 数据 迁移 的 特征 ， 所 以 典型 的 网 格 系统 是 一 种 既 有 面向 数据 又 有 面向 计 
算 特征 的 混合 系统 ， 完 成 的 任务 主要 还 是 计算 密集 的 需要 高 性 能 计算 的 任务 ， 应 用 领域 主要 是 
在 科学 计算 等 专业 的 领域 。 这 里 比较 著名 的 网 格 项 目 就 是 外 星 文明 搜索 计划 SETI(Search for 
Extra—Terrestrial Intelligence), 应 用 于 该 计划 的 SETI@home 网 格 将 计算 程序 制作 为 屏幕 保护 程 
序 借用 网 络 上 闲置 的 计算 资源 ， 在 计算 终端 空闲 时 向 网 格 服务 器 请 求 切 分 好 的 数据 块 并 对 该 数 
据 块 进行 计算 ,计算 完成 后 将 结果 返回 给 网 格 服务 器 沪 总 。 

随 着 面向 数据 逐步 成 为 计算 发 展 的 主流 ,网 格 技术 也 在 不 断 改变 ，Globus 也 面向 大 数据 进 
行 了 相应 的 改变 以 适应 当前 的 实际 需求 ， 网 格 技术 现在 已 呈现 出 全 面向 云 计 算 靠拢 的 趋势 。 而 
作为 典型 的 网 格 技术 可 以 被 认为 是 从 面向 计算 走向 面向 数据 发 展 过 程 中 的 过 渡 性 技术 ， 网 格 计 
算 会 在 专业 领域 获得 更 好 的 发 展 但 可 能 会 在 一 定 程度 上 淡出 普通 用 户 的 视野 ， 网 格 计算 的 一 些 
思想 和 技术 为 后 来 云 计 算 技术 的 出 现 提供 了 可 以 借鉴 的 方法 。 


4.6.3 ”基于 数据 切 分 的 分 布 式 计算 技术 


进入 网 络 高 速 发 展 的 时 期 , 数据 的 产生 成 为 了 全 民 无 时 无 刻 不 在 进行 的 日 常 行为 ,数据 量 
呈现 出 了 爆炸 式 增长 ， 大 数据 时 代 到 来 ， 数 据 的 作用 被 提 到 很 高 的 地 位 ， 和 人 们 对 数据 所 能 带 来 
的 知识 发 现 表现 出 强烈 的 信心 。 长 期 以 来 数据 挖掘 技术 的 应 用 一 直 都 处 于 不 温 不 火 的 状态 ， 大 
数据 时 代 的 到 来 也 使 这 一 技术 迅速 地 被 再 次 重视 起 来 ， 基 于 海量 数据 的 挖掘 被 很 快 应 用 于 网 页 
数据 分 析 、 客 户 分 析 、 行 为 分 析 、 社 会 分 析 ， 现 在 可 以 经 党 看 到 被 准确 推送 到 自己 电脑 上 的 产 
品 介绍 和 新 闻 报 道 就 是 基于 这 类 面向 数据 的 数据 挖掘 技术 的 。 基 于 数据 切 分 实现 分 布 式 计算 的 
方法 在 面向 计算 时 代 也 被 经 常 使 用 , 被 称 为 数据 并 行 (data parallel) 方 法 ,但 在 面向 计算 时 代 真 正 
的 问题 在 于 计算 和 数据 之 间 上 只 是 简单 的 协作 关系 ， 数 据 和 计算 事实 上 并 没有 很 好 地 融合 ， 计 算 
只 是 简单 读 取 其 需要 处 理 的 数据 而 已 ， 系 统 并 没有 太 多 考虑 数据 的 存储 方式 、 网 络 带宽 的 利用 
率 等 问题 。 

通过 数据 切 分 实现 计算 的 分 布 化 是 面向 数据 技术 的 一 个 重要 特征 ，2003 年 Google 逐步 公 
开 了 它 的 系统 结构 ， Google 的 文件 系统 GFS 实现 了 在 文件 系统 上 对 数据 进行 切 分 , 这 一 点 对 利 
用 MapReduce 实现 对 数据 的 目 动 分 布 式 计算 非常 重要 , 文件 系统 自身 就 对 文件 施行 了 自动 的 切 
完全 改变 了 分 布 式 计算 的 性 质 ，MPI、 网 格 计算 都 没有 相 匹 配 的 文件 系统 支持 ， 从 本 质 上 看 
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数据 都 是 集中 存储 的 ， 网 格 计算 虽然 有 数据 切 分 的 功能 ， 但 只 是 在 集中 存储 前 提 下 的 切 分 。 具 
有 数据 切 分 功能 的 文件 系统 是 面向 数据 的 分 布 式 系统 的 基本 要 求 。 
2004 4 Jeffrey Dean 和 Sanjay Ghemawat 发 表 文 章 描述 Google 系统 的 MapReduce 框架 。 

与 MPI 不同 , 这 种 框架 通常 不 是 拆 分 计算 来 实现 分 布 式 处 理 ， 而 是 通过 拆 分 数据 来 实现 对 大 数 
据 的 分 布 式 处 理 ，MapReduce 框架 中 分 布 式 文件 系统 是 整个 框架 的 基础 如 图 4.6 所 示 ， 这 一 框 
架 下 的 文件 系统 一 般 将 数据 分 为 64MB 的 块 进 行 分 布 式 存 放 ， 需 要 对 数据 进行 处 理 时 将 计算 在 
各 个 块 所 在 的 节点 直接 发 起 ， 避 免 了 从 网 络 上 读 取 数据 所 耗费 的 大 量 时 间 ， 实 现 计 算 主动 “ 寻 
找 ” 数 据 的 功能 ， 大 大 简化 了 分 布 式 处 理 程序 设计 的 难度 。 在 这 里 数据 块 被 文件 系统 预先 切 分 
是 MapReduce 能 上 自动 实现 分 布 式 计算 的 重要 前 提 , 系统 通过 主 世 点 的 元 数据 维护 各 数据 块 在 系 
统 中 存储 的 节点 位 置 ， 从 而 使 计算 能 有 效 地 找到 所 需要 处 理 的 数据 。 MapReduce 这 种 大 块 化 的 
数据 拆 分 策略 非常 适合 对 大 数据 的 处 理 ， 过 小 的 数据 分 块 会 使 这 一 框架 在 进行 数据 处 理 时 的 效 
率 下 降 。 这 一 框架 在 获得 良好 的 大 数据 并 行 处 理 能 力 的 时 候 也 有 其 应 用 的 局 限 ，MapReduce 框 
染 在 对 同类 型 大 数据 块 进行 同类 型 的 计算 处 理 时 具有 非常 好 的 自动 分 布 式 处 理 能 力 ， 但 在 数据 
较 小 、 数 据 类 型 复杂 、 数 据 处 理 方式 多 变 的 应 用 场景 效率 相对 低下 。 为 了 实现 Google 系统 良好 
的 计算 和 数据 的 协作 机 制 GFS 和 MapReduce 是 密 不 可 分 的 ， 没 有 GES 支持 单独 的 采用 
MapReduce 是 没有 太 大 价值 的 。 


计算 程序 片 注入 


PTET ewe een ee acne ween ene nn eens ane nnnen ana nenaneanae 有 we SU | ates Me! IE Tel on™ | Use MOEA NR Re? Ep We 

‘ 

二 H 

. : 
二 


: be wana} | ara | | wear | | aaraa || stats Mai Ain 
“| [aE ]| |G) |e ]) |e] |e) ~~ | BaeBE] 
GFS | 切 分 数据 块 


等 处 理 大 数据 


46 ”基于 数据 切 分 的 分 布 式 系统 结构 


MapReduce 框架 使 计算 在 集群 节点 中 能 准确 找到 所 处 理 的 数据 所 在 市 点 位 置 的 前 提 是 所 
处 理 的 数据 具有 相同 的 数据 类 型 和 处 理 模式 ,从 而 可 以 通过 数据 的 拆 分 实现 计算 向 数据 的 迁移 ， 
事实 上 这 类 面向 数据 系统 的 负载 均衡 在 其 对 数据 进行 分 块 时 就 完成 了 ， 系 统 各 区 点 的 处 理 压力 
与 该 节点 上 的 数据 块 的 具体 情况 相对 应 ,因此 MapReduce 框架 下 某 一 节点 处 理 能 力 低 下 可 能 会 
造成 系统 的 整体 等 待 形成 数据 处 理 的 瓶颈 。 在 MapReduce 框架 下 节点 服务 器 主要 是 完成 基本 的 
计算 和 存储 功能 ， 因 此 可 以 采用 廉价 的 服务 顺 作 为 节点 ， 这 一 变化 改变 了 人 们 对 传统 服务 器 的 
看 法 。2005 年 Apache 基金 会 以 Google 的 系统 为 模板 启动 了 Hadoop 项 目 ， Hadoop 完整 地 实现 
了 上 面 描述 的 面向 数据 切 分 的 分 布 式 计算 系统 , 对 应 的 文件 系统 为 HDFS，Hadoop 成 为 了 面向 
数据 系统 的 一 个 被 广泛 接纳 的 标准 系统 。 


需要 对 大 量 的 新 增 数 据 进 行 分 析 , 由 于 MapReduce 框架 无 法 对 以 往 的 局 部 、 中 间 计 算 结 果 进 行 
存储 ，MapReduce 框架 只 能 对 新 增 数据 后 的 数据 集 全 部 进行 重新 计算 ， 以 获得 新 的 索引 结果 ， 
这 样 的 计算 方法 所 需要 的 计算 资源 和 耗费 的 计算 时 间 会 随 着 数据 量 的 增加 线性 增加 。Percolator 
是 一 种 全 新 的 架构 ,可 以 很 好 地 用 于 增 量 数据 的 处 理 分 析 , 已 在 Google 索引 中 得 到 应 用 , 大 大 
提升 Google 索引 更 新 速度 ， 但 与 MapReduce 等 非 增 量 系统 不 于 兼容 ， 并 且 编 程 人 员 需 要 根据 
特定 应 用 开发 动态 增 量 的 算法 ， 使 算法 和 代码 复杂 度 大 大 增加 。Incoop 提出 了 增 量 Hadoop 文 
件 系统 (Inc-HDEFS)，HDFS 按照 固定 的 块 大 小 进 文件 划分 ， 而 Inc-HDFS 则 根据 内 容 进行 文件 
划分 ， 当 文件 的 内 容 发 生变 化 时 ， 只 有 少量 的 文件 块 发 生变 化 ， 大 大 减少 了 Map 操作 量 。 

迭代 操作 是 PageRank, K—means 等 Web 数据 分 析 的 核心 操作 ，MapReduce 作为 一 种 通用 
的 并 行 计算 框 杂 ， 其 下 一 步 迭 代 必 须 等 待 上 一 步 迭 代 完 成 并 把 输出 写 入 文件 系统 才能 进行 ， 如 
果 有 终止 条 件 检查 也 必须 等 待 其 完成 。 同 时 ， 上 一 步 迭 代 输 出 的 数据 写 入 文件 系统 后 马上 又 由 
下 一 步 迭 代 读 入 ， 导 致 了 明显 的 网 络 带 宽 、L/O、CPU 时 间 的 浪费 。iHadoop 在 分 析 了 和 迭代 过 
程 存在 的 执行 相关 、 数 据 相 关 、 控 制 相 关 之 后 对 洪 在 的 可 并 行 性 进行 了 挖 据 ， 提 出 了 异步 迭代 
方式 , 比 Hadoop 实现 的 MapReduce 执行 时 间 平 均 减 少 了 25%。 Twister 对 MapReduce 的 任务 
复 用 、 数 据 缓存 、 和 迭代 结 束 条 件 判断 等 进行 调整 以 适合 迭代 计算 ， 但 其 容错 机 制 还 很 欠缺 。 

Pregel 是 Google 提出 专用 于 解决 分 布 式 大 规模 图 计算 的 计算 模型 ， 非 常 适合 计算 如 
FaceBook 等 社交 关系 图 分 析 ， 其 将 处 理 对 象 看 成 是 连通 图 ， 而 MapReduce 将 处 理 对 象 看 成 是 
Key—Value Xf; Pregel 将 计算 细 化 到 顶点 ， 而 MapReduce 将 计算 进行 批量 化 ， 按 任务 进行 循环 
AEST 

在 分 布 式 文件 系统 条 件 下 数据 的 切 分 使 对 文件 的 管理 变 复杂 ， 此 类 集群 系统 下 文件 系统 的 
管理 和 数据 分 析 是 需要 进行 重点 关注 的 研究 领域 之 一 。 


4.6.4 三 种 分 布 式 系统 的 分 析 对 比 


从 面向 计算 发 展 到 面向 数据 , 分 布 式 系统 的 主要 特征 也 发 生 了 变化 , 表 4.2 中 对 3 种 典 
型 的 分 布 式 系统 进行 了 对 比 和 分 析 ， 从 表 中 可 以 看 出 分 布 式 系统 的 发 展 大 体 分 为 了 三 种 类 
型 : 面向 计算 的 分 布 式 系统 、 混 合 型 分 布 式 系统 和 面向 数据 的 分 布 式 系 统 。 其 中 混合 型 分 
布 式 系 统 是 发 展 过 程 中 的 一 个 中 间 阶 段 ， 它 同时 具有 面向 计算 和 面向 数据 的 特征 ， 如 混合 
型 系统 中 也 存在 数据 拆 分 这 类 面向 数据 系统 的 典型 特征 ， 但 却 是 以 集中 式 的 存储 和 数据 向 
计算 迁移 的 方式 实现 计算 和 数据 的 位 置 一 致 性 。 对 于 面向 数据 的 分 布 式 系 统 往往 有 对 应 的 
分 布 式 文件 系统 的 支持 ， 从 文件 存储 开始 就 实现 数据 块 的 划分 ， 为 数据 分 析 时 实现 目 动 分 
布 式 计算 提供 了 可 能 ， 计 算 和 数据 的 协作 机 制 在 面向 数据 的 系统 中 成 为 了 核心 问题 ， 其 重 
要 性 凸显 出 来 。 


Le 


表 4.2 3 种 分 布 式 系统 的 对 比 


分 布 式 计算 的 实现 方法 数据 拆 分 数据 拆 分 
典型 的 存储 方式 集中 存储 集中 存储 分 布 式 存储 
an aia 据 向 计算 迁移 “| 数据 向 计算 迁移 计算 向 数据 迁移 


系统 物理 位 置 模式 TL 集中 
低 


数 
数 
难 


中 
计算 直接 读 取 | 计算 主动 请 求 读 取 ”| 一 致 性 哈 希 ， 主 节点 
应 用 场景 计算 密集 计算 密集 数据 密集 
负载 均衡 方式 cpu 参数 均衡 | CPU BBCI, BOE | 数据 块 均衡 

块 均衡 
主要 应 用 领域 专业 领域 专业 领域 普通 领域 
典型 系统 MPI, 高 性 能 计算 oy Mere Ree sans oe 


由 于 面向 计算 的 分 布 式 系统 具有 灵活 和 功能 强大 的 计算 能 力 , 能 完成 大 多 数 问 题 的 计算 任 
务 ， 而 面向 数据 的 分 布 式 系统 虽然 能 较 好 地 解决 海量 数据 的 目 动 分 布 式 处 理 问题 ,但 目前 其 仍 
是 一 种 功能 受 限 的 分 布 式 计 算 系 统 ， 并 不 能 灵活 地 适应 大 多 数 的 计算 任务 ， 因 此 现在 已 有 一 些 
研究 工作 在 探讨 将 面向 计算 的 分 布 式 系统 与 面向 数据 分 布 式 系统 进行 结合 ， 硕 望 能 在 计算 的 灵 
活性 和 对 海量 数据 的 处 理 上 都 获得 良好 的 性 能 。 目 前 技术 的 发 展 正 在 使 面向 计算 和 面向 数据 的 
系统 之 间 的 界限 越 来 越 不 明确 ， 很 难 准确 地 说 某 一 个 系统 一 定 是 面向 计算 的 还 是 面向 数据 的 系 
统 ， 数 据 以 及 面向 数据 的 计算 在 云 计 算 和 大 数据 时 代 到 来 时 已 紧密 结合 在 了 一 起 ， 赴 算 和 数据 
的 协作 机 制 问题 也 成 为 重要 的 研究 课题 。 

特别 是 HPCC ( High Performance Computing Cluster, 高 性 的 计算 集群 ) 系统 的 出 现 表明 
这 一 融合 过 程 正在 成 为 现实 ，HPCC 系统 是 LexisNexis 公司 开发 的 面向 数据 的 开源 高 性 能 计算 
平台 ，HPCC 的 详细 内 容 参见 本 书 第 7 章 。HPCC 采用 商品 化 的 服务 器 构建 的 面向 大 数据 的 高 
性 能 计算 系统 ，HPCC 系统 希望 能 结合 面向 数据 和 面向 计算 系统 的 优点 ， 既 能 解决 大 数据 的 分 
布 式 存储 问题 又 能 解决 面向 大 数据 的 数据 处 理 问题 。 

HPCC 系统 主要 由 数据 提取 集群 Thor, 数 据 发 布 集群 Roxie 和 并 行 编程 语言 ECL(Enterprise 
Control Language) 组 成 。 其 中 Thor 集群 是 一 个 主 从 式 集群 ， 这 一 集群 有 一 个 能 实现 见 余 功能 的 


分 布 式 文件 系统 Thor DFS 支持 ， 主 要 完成 大 数据 的 分 析 处 理 ， 从 类 比 的 角度 可 以 将 这 一 部 分 
看 成 是 一 个 有 分 布 式 文件 系统 支持 的 MPI, 这 一 点 正好 弥补 了 MPI 没有 分 布 式 文件 系统 文 持 的 
弱点 。 在 HPCC 系统 中 高 性 能 计算 和 大 数据 存储 的 融合 再 次 提示 : 计算 和 数据 的 协作 问题 是 解 
决 面向 数据 时 代 大 数据 分 析 处 理 问 题 中 的 一 项 关键 技术 。 


练习 题 
1.， 云 计算 技术 领域 存在 两 个 主要 技术 路 线 ， 一 个 是 
是 
2 -集群 的 设计 由 要 尖 良 5 个 关键 加 同 是 六 GD uA 
3. TeOuNR apm PAST A a ee he aida 
4， 简 述 Beowulf 系统 的 主要 特点 。 
5. Lustre 存储 系统 的 组 成 有 


6， 简 述 面向 计算 的 分 布 式 系统 、 混 合 型 分 布 式 系统 、 面 向 数据 的 分 布 式 系统 的 实现 机 制 ， 
分 析 三 种 系统 的 区 别 。 
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大 量 的 云 计算 系统 是 基于 集群 系统 的 并 行 计算 系统 ， 了 解 并 行 计算 技术 ， 熟悉 在 集群 条 件 
下 的 工作 环境 是 学 习 云 计算 的 重要 基础 ， MPI 为 我 们 提供 了 了 解 集群 之 间 通 信 机 制 的 一 种 重要 
模型 ， 从 这 一 节 开始 我 们 进入 并 行 计算 环境 ， 这 是 迈 入 云 计算 时 代 的 第 一 步 ， 部 悉 在 并 行 环境 
下 的 十 作 方式 对 我 们 理解 去 计算 是 有 益 的 。 ene 


5.1 {tZ 是 MPL 


MPI (Message Passing ae 14 息 ， 了 1994 年 5 月 标准 的 1.0 版 本 诞生 。2012 
年 发 布 了 MPI3.0, MPI 标准 描述 是 是 一 种 消 息 传递 编程 模型 ,并 成 为 这 种 编程 模型 的 代表 和 事 
实 上 的 标准 ，MPI 本 身 并 不 是 一 一 个 具体 的 实现 ， 而 只 是 一 种 标准 描述 ，MPI 库 可 以 被 
FORTRAN77/C/Fortran90/C++ 调 用 。 消息 传递 机 制 使 服务 器 之 | 司 能 有 机 的 结合 在 一 起 形成 一 
个 更 大 的 计算 资源 池 ， 通过 消 息 通信 机 制服 务 器 之 间 能 进行 数据 交换 从 而 实现 对 计算 任务 的 相 
互 协作 。 目 前 在 高 性 能 计算 领域 MPI 也 是 事实 上 的 标准 ， 许多 超级 计算 机 上 都 安装 了 符合 MPI 
标准 的 软件 平台 。 大 量 的 计算 软件 也 是 基于 MPI 完成 的 ， 如 也 纳 大 学 Hafner 小 组 开发 的 进行 
电子 结构 计算 和 量子 力学 -分 子 动力 学 模拟 软件 包 VASP( Vienna Ab-initio Simulation Package ), 

它 是 目 前 材料 模拟 和 计算 物质 科学 研究 中 最 流行 的 商用 软件 之 一 ， 大 量 的 科研 机 构 都 在 采用 此 

软件 ， 并 因此 诞生 了 一 门 新 的 学 科 计 算 材 料 学 。 MPI 标准 的 相关 知识 可 参考 其 富 B 万 论坛 
http://www. mpi—forum. org/o 6 | 

MPICH 是 MPI 标准 的 一 个 最 党 用 的 开源 实现 ,其 版 本 基本 与 MPI 标准 基本 同步， MPICH 
的 开发 主要 是 由 Argonne National Laboratory 和 Mississippi State University 共同 元 成 的 一 个 MPI 
的 具体 实现 ， 目前 常用 版 本 为 MPICH2 ( 版 本 号 09-15) ， 最 新 版 本 为 MPICH 3.0 。 bees 
件 与 说 明 书 可 在 其 言 方 网 站 免费 下 载 : ps //www. pont org/。 


5.2 MPI 的 架构 和 特点 


云 计 算 的 定义 中 计算 资源 池 的 形成 是 十 分 重要 的 一 项 技术 ,MPI 的 核心 工作 就 是 实现 大 量 
服务 器 计算 资源 的 整合 输出 ，MPI 为 分 布 式 程序 设计 人 员 提 供 了 最 大 的 灵活 性 和 自由 度 , 但 随 
之 而 来 的 代价 是 编程 的 复杂 性 ， 程 序 设计 人 员 需 要 自己 实现 任务 在 节点 中 的 分 配 ， 并 保证 节点 
间 的 协调 工作 ， 当 面 对 上 干 个 节点 的 分 布 式 系统 时 这 种 编程 模式 会 成 为 程序 员 的 避 梦 。 目 前 
MPI 的 应 用 领域 主要 还 是 科学 计算 领域 ,但 这 种 分 布 式 计算 机 制 却 在 后 来 的 云 计 算 系 统 中 得 到 
了 或 多 或 少 的 体现 。 

总 体 来 看 ，MPI 具有 以 下 的 特点 。 

(1) 程序 编写 灵活 ， 功 能 强大 。 

MPI 为 分 布 式 程序 设计 人 员 提 供 了 功能 强大 的 消息 通信 函数 ， 如 阻塞 通信 、 非 阻塞 通信 、 
组 通信 、 归 约 、 自 定义 数据 类 型 等 。 程序 设计 人 员 能 在 上 面 较为 灵活 的 实现 算法 的 并 行 化 工作 。 

(2) 能 支持 多 种 编程 语言 。 

MPI 目前 能 支持 FORTRAN77/C/Fortran90/C++ 等 语言 的 调用 ， 能 满足 大 多 数 科学 计算 
的 应 用 需要 。 

(3) MPI 对 计算 的 支持 强大 ， 但 对 文件 的 支持 较 弱 。 

MPI 设计 的 初衷 就 是 为 了 计算 密集 的 任务 定制 的 ,是 面向 计算 时 代 的 典型 技术 ， 其 对 计算 
的 支持 十 分 强大 ,但 MPI 自身 没有 与 之 相 融 合 的 分 布 式 文件 系统 ， 数 据 在 MPI 中 的 存储 主要 
是 依靠 NFS 等 集中 存储 设备 , 计算 时 各 节点 需要 通过 网 络 从 集中 存储 设备 上 读 取 数据 , 在 面 对 
大 数据 处 理 时 网 络 带 宽 会 成 为 其 严重 的 瓶 贷 。 这 就 是 我 们 常 说 的 “数据 向 计算 迁移 ”， 而 
Hadoop 等 云 计 算 系统 通常 是 “计算 向 数据 迁移 ”， 从 而 避免 了 网 络 瓶 颈 。 

(4) MPI 需要 程序 设计 人 员 自 己 实 现 求 解 问题 的 并 行 化 。 

MPI 并 不 为 程序 设计 人 员 提 供 任何 预 设 的 程序 并 行 化 方案 和 模块 , 任何 问题 的 并 行 化 都 需 
要 程序 设计 人 员 自 己 来 完成 。 任 务 切 分 和 节点 分 配 工作 系统 并 不 提供 任何 的 监控 系统 支持 ， 需 
要 程序 设计 人 员 自 己 实现 系统 任务 分 配 及 负载 的 平衡 。 

(5) MPI 没有 提供 计算 失效 的 处 理 机 制 。 

MPI 并 不 为 用 户 自动 处 理 节 点 失效 ， 如 果 在 计算 中 出 现 节 点 失效 问题 需要 重启 计算 任务 。 

(6) 网 络 是 MPI 的 主要 瓶颈 。 

MPI 的 消息 传递 机 制 是 通过 网 络 进行 传输 的 ， 通 常 网 络 的 数据 传输 速度 与 CPU 计算 速度 
相 比 要 慢 很 多 ， 大 量 的 消息 传递 会 大 大 的 降低 程序 的 计算 效率 ， 而 且 集 群 规 模 越 大 这 个 问题 越 
严重 , 在 MPI 的 编程 原则 中 甚至 有 “用 计算 换 通信 ”的 说 法 , 即 宁 愿 多 算 也 要 尽 可 能 地 减少 消 
息 通 信 。 所 以 在 并 行 计算 集群 中 往往 会 采用 高 速 通信 技术 实现 节点 间 的 数据 通信 。 

MPI 的 这 些 特点 使 其 在 科学 计算 等 专业 领域 得 到 了 广泛 的 应 用 , 但 在 云 计 算 领 域 却 被 虚拟 
化 技术 和 面向 数据 的 分 布 式 系统 革 了 风头 ， 但 其 整合 计算 的 方法 是 学 习 云 计算 的 基础 知识 。 


wea an ||| 


5.3. MPICH 并 行 环境 的 建立 


MPICH 并 行 环境 的 建立 主要 就 要 完成 以 下 3 项 工作 。 

(1) 配置 好 NFS 服务 ,实现 所 有 节点 对 主 节点 指定 文件 夹 的 共享 ， 该 文件 夹 为 MPICH 的 
安装 位 置 、 数 据 和 程序 的 存储 位 置 ， 这 样 就 可 以 避免 在 每 个 节点 安装 MPICH， 启 动 计 算 时 也 
可 以 避免 每 次 向 各 个 节点 分 发 程序 。 | 

(2 ) 配 置 好 市 点 间 的 互信 , 这 一 步 就 是 实现 集群 内 部 各 节点 间 无 需 密 码 访问 , 因为 MPICH 
在 计算 时 需要 在 各 节点 进行 数据 交换 ， 集 群 内 的 节点 应 用 相互 信任 的 节点 。 

(3) 编译 安装 配置 MPICH. 


5.3.1 配置 前 的 准备 工作 


我 们 假设 集群 是 4 个 节点 。 

(1) 安装 Linux 系统 ， 并 保证 每 个 节点 的 sshd 服务 能 正常 启动 。 

(2) 为 每 个 节点 分 配 IP 地 址 ，IP 地 址 最 好 连续 分 配 ， 如 192.168. 1.1、192.168.1.2、 
192.168.1.4。 

(3 ) 配置 /etc/hosts 文件 ， 该 文件 可 以 实现 IP 地 址 和 机 器 的 对 应 解析 ， 所 有 节点 的 该 文件 
均 要 按 下 面 的 内 容 修改 : 


通过 以 上 配置 后 节点 之 间 能 够 通过 各 节点 的 机 器 名 称 相互 访问 。 例 如 , 可 以 通过 ping node2 
或 ssh node2 进行 测试 。 


5.3.2 EK NES 


由 于 MPICH 的 安装 目录 和 用 户 可 执行 程序 在 并 行 计 算 时 需要 在 所 有 节点 存 副本 ， 而 且 目 
录 要 相互 对 应 ， 每 次 一 个 节点 一 个 贡 点 地 复制 非常 肪 烦 ， 采 用 NFS (Network File System， 网 
络 文件 系统 ) 后 可 以 实现 所 有 节点 内 容 与 主 节 点 内 容 同步 更 新 ， 并 自动 实现 目录 的 对 应 。 
使 所 有 机 器 都 能 以 同样 的 路 径 (假设 为 /usr/cluster ) 访问 服务 器 上 保存 的 文件 ， 访 问 方 法 如 同 
对 本 地 文件 的 访问 。 这 对 于 部 分 采用 MPI 进行 并 行 计算 的 用 户 来 说 可 能 是 必须 的 , 通常 我 们 会 
将 MPICH 的 安装 目录 及 并 行程 序 存放 目录 配置 为 NFS 共享 目录 , 这 样 可 以 省 去 将 文件 向 各 个 
节点 复制 的 腑 烦 ， 大 大 提高 工作 效率 。 

NES 的 配置 方法 示例 如 下 ( 假设 NFS 服务 器 IP 为 192.168.1.1, 配 置 需 在 root 用 户 下 完成 )。 

(1) 服务 器 端 配置 方法 (下面 的 配置 只 在 主 节 点 进行 ) 。 


一 -一 一 一 一 一 一 er mm ce . = SEE ==> ce 


@ /etc/exports 文件 配置 。 
CEC /etc/emports HORDE RAO ity sabi Ei 


这 几 行 文字 表明 NES 服务 器 向 192.168.1.2， 192.168.1.3, 192.168.1.4 的 3 个 节点 
共享 其 /usr/cluster 目录 ， 并 使 这 些 节点 具有 可 读 写 权限 。 如 有 更 多 的 节点 可 按 此 方法 填写 。 

@) 启动 NFS 服务 。 

bles NFS 服务 民生 和 和 Se 


Er = eee NFS 守护 进程 改 为 pcbind， 如 是 新 内 核 ， 启 动 NES 守护 进程 的 命令 


是 “service rpcbind start”。 


到 此 IP 为 192.168.1.1 的 服务 器 已 可 以 向 其 他 两 个 节点 提供 /usr/cluster 目录 的 文件 共享 。 
(2) 客户 端 配 置 方 法 ( 需要 在 所 有 子 市 点 做 同样 的 配置 ) 。 

Q@ 建立 共享 目录 。 

建立 与 服务 器 相同 的 共享 目录 用 于 共享 服务 器 文件 : 


”加 查看 服务 器 已 有 的 共享 目录 ( 这 步 可 省 略 ) 。 


通过 这 条 命令 我 们 可 以 查看 下 192.168.1.1 的 服务 器 可 以 共享 的 目录 情况 。 


这 一 命令 将 NFS pr 168.1.1 se 目 录 持 载 到 ee 目 ry 
在 所 有 ca eae ene x cae bi seers = SHER a. | 


rar peer oA 文件 夹 都 共享 
了 NES 服务 器 的 同名 文件 夹 的 内 容 ， 我 们 可 以 像 访问 本 地 文件 _ 样 访问 共享 文件 。MPICH 的 
安装 目录 和 用 户 存放 并 行程 序 的 文件 夹 都 需 实现 NES 共享 , 从 而 避免 了 每 次 向 各 节点 发 送 程序 
副本 。 


5.3.3 ”配置 ssh 实现 MPI 节点 间 用 户 的 无 密码 访问 


«A MPI 并 行程 序 需要 在 各 节点 间 进 行 信息 传递 ,所 以 必须 实现 所 有 节点 两 两 之 间 能 无 密 
码 访 问 。 节点 间 的 无 密码 访问 是 通过 配置 sh 公 钥 认证 来 实现 的 。 配置 ssh 是 集群 系统 配置 的 常 
用 操作 ，MPI、 Hadoop、 HPCC 系统 均 需 配置 sh。 


Pra TRA Re A OAS ot E}—$Id fl on St 


例如 ， 对 新 用 户 user 配置 ssh 公 钥 认证 ， 先 在 nodel 上 做 以 下 操作 。 
(1) 生成 了 私 钥 id_dsa 和 公 钥 id_dsa.pub， 具 体操 作 方 法 如 下 。 


系统 显示 如 下 信息 遇 到 系统 询问 直接 回 车 即 可 


(2 ) 将 该 密 钥 用 作 认证 ， 进 行 访问 授权 。 按 如 下 命令 在 nodet 执行 。 


(3) 将 ~/.ssh 目录 下 的 文件 复制 到 所 有 节点 。 


(4) 检查 是 否 可 以 直接 ( 不 需要 密码 ) 登录 其 他 节点 。 


如 能 两 两 之 间 不 需 密码 登录 其 他 节 ， 则 表明 配置 成 功 。 


5.3.4 安装 MPICH2 


MPICH2 的 安装 与 MPICH1 的 安装 有 所 不 同 ，MPICH2 可 以 不 用 machined 
Se eee 


解压 完成 后 将 在 当前 目录 生成 一 个 MPICH 文件 目录 。 
(2) 进入 MPICH wit Ax, peaked: = Re 


根据 以 上 配置 MPICH PE ase BTA 建立 针 对 
录 的 NES 共享 。 


(3 ) 编译 安装 MPICH2。 进 入 解压 后 的 MPICH 文件 目录 ， 分 别 执行 make 和 make install 
指令 ， 这 会 化 一 段 较 长 的 时 间 。 

(4) 在 当前 用 户 月 录 下 建立 并 编辑 配置 文件 mpd.hosts。 将 所 有 你 允许 访问 本 机 进行 并 行 
计算 的 机 器 名 填 入 ， 一 行 一 个 机 器 名 ， 如 果 该 机 器 上 有 两 个 CPU ， 就 将 它 的 名 字 加 入 两 次 ， 以 
此 类 推 。 例 如 ， 在 我 们 实例 中 的 mpd.hosts 文件 内 容 如 下 : 


注意 , 文中 包含 自己 ( 即 给 自己 放权 ) 的 目的 是 为 了 在 只 有 一 个 节点 时 也 可 以 模拟 并 行 计 
算 环 境 。 | 


Se att eat aaa Sense Ee 2 机 二 


一 行 代码 将 MPI 的 安装 路 径 加 入 用 户 的 当前 路 径 列表 。 重 新 打开 命令 行 窗口 后 生效 。 
(6) 启动 mpd 守护 进程 。 运 行 mpirmn， 首 先 要 运行 mpd。 在 启动 mpd 守护 进程 前 要 在 各 
个 节点 的 用 户主 目录 下 生成 一 个 mpd.conf 文件， 具体 步 又 如 下 
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mpd.conf 文件 的 内 容 为 : 


其 中 ，“123456” 为 识别 口令 ， 在 所 有 节点 中 都 建立 该 文件 并 保持 口令 一 致 ， 口 令 可 自己 
设 定 。 
mpd& 为 启动 本 地 mpd 的 命令 ,我 们 也 可 以 采用 以 下 命令 同时 启动 mpd.hosts 中 所 列 节点 的 


mpd 


如 : mpdboot -n4-fmpd.hosts 


这 一 命令 将 同时 在 mpd.hosts 文件 中 所 指定 的 节点 上 启动 mpd 管理 大。 

mpd 启动 后 执行 “mpdtrace -]” 可 以 查看 各 个 节点 机 器 名 。 

(7) 编译 、 运 行 一 个 简单 的 测试 程序 cpi， 这 是 一 个 MPICH Ee n 值 的 并 行 示 例 
程序 ， 该 例 程 在 MPICH 的 examples 目录 下 。 

运行 命令 如 下 : 


结果 如 下 : 


中 


Process 2 of 4 is on node2 | 
Process 3 of 4 is on : node3 

| wall clock time = 0. 021253 Sa 和 > 7 
得 到 这 样 的 输出 结果 表示 我 们 所 拱 建 的 集群 系统 已 了 可 以 成 功 地 运行 MPI 1 fel 
ee ee caren: > Mele as 


mpicc test.c 


5.3.5 ”建立 并 行 计 算 环 境 时 的 注意 事项 


第 一 次 配置 并 行 计算 环境 时 ， 许 多 人 都 会 遇 到 一 定 的 困难 ， 特 别 是 初学 者 ， 下 面 我 们 对 配 
置 时 需要 注意 的 问题 列 出 来 ， 大 家 在 遇 到 问题 时 可 以 参考 。 

(1) 部 分 服务 配置 文件 需要 root 用 户 权 限 ， 如 NFS 服务 器 的 配置 ， 在 安装 时 如 出 现 问 题 
请 首先 检查 当前 用 户 是 否 具 备 相应 的 权限 。 

(2) /etc/hosts 文件 需要 在 所 有 节点 上 修改 。 

(3) 各 市 点 的 MPICH 和 用 户 程序 要 在 相同 的 目录 下 ， 所 有 节点 都 必须 有 MPICH 和 用 户 
程序 的 副本 。 

(4) 如 出 现 mpd 无 法 启动 请 检查 所 有 节点 的 NFS 文件 共享 是 否 正 常 启动 。 

(5) 启动 mpd 前 要 保证 所 有 节点 都 正确 安装 了 MPICH。 

(6) NFS 配置 及 取消 密码 配置 的 顺序 可 以 交换 , 但 MPICH 必需 最 后 安装 ,否则 MPI 不 能 
正常 运行 。 | 

(7) 运行 MPI 程序 时 出 现 故障 请 检查 以 下 内 容 : 网 络 是 否 正常 ,各 节点 是 否 能 无 密码 相互 
SR, mpd 是 否 在 所 有 节点 都 已 启动 ,NEFS 服务 及 共享 在 各 节点 是 否 已 完成 ,各 节点 .mpd.conf 
文件 中 密码 是 否 相 同 ， 可 执行 文件 是 否 在 各 节点 的 相同 路 径 有 副本 ，MPICH 的 安装 文件 是 否 
在 各 节点 的 相同 路 AAA fal AB. 

(8) 安装 时 无 法 采用 ssh 登录 系统 时 请 检查 系统 的 防火 墙 设置 。 

(9) 系统 必须 已 安装 GCC 才能 进行 并 行 环 境 的 配置 。 

(10) 当 ssh 无 密码 访问 配置 出 现 故障 时 ， 可 将 所 有 节点 的 .sh 文件 夹 全 部 清除 ， 重 新 配置 
ssh 无 密码 访问 |。 


5.4 MPI 分 布 式 程序 设计 基础 


在 并 行 计 算 时 代 人 们 更 关注 的 是 计算 能 力 ， 一 切 以 计算 为 中 心 ， 计 算 力 成 为 了 首要 追逐 的 
目标 ， 因 此 人 们 通过 将 多 台 服 务 器 连接 起 来 实现 计算 能 力 的 提升 ， 这 种 计算 模式 非常 适合 从 事 
计算 密集 型 的 任务 ， 虽 然 云 计算 时 代 单 纯 的 计算 密集 型 的 任务 会 越 来 越 少 ， 但 了 解 并 行 计 算 时 
代 的 程序 设计 方法 对 我 们 理解 云 计算 中 的 一 些 技术 基础 和 理念 是 有 好 处 的 ， 我 们 在 实际 研究 工 


~ 


作 中 也 体会 到 这 点 , 所 以 本 章 将 介绍 采用 MPI 进行 并 行程 序 设计 的 核心 技术 ; 使 读者 能 由 并 行 
计算 世界 逐步 进入 云 计算 世界 。 


5.4.1 最 简单 的 并 行程 序 


并 行程 序 让 很 多 人 望而却步 , 其 实 基于 MPI 的 并 行程 序 设 计 并 没有 那么 可 怕 , 甚至 简单 得 
让 人 吃惊 ， 本 实例 将 介绍 一 段 最 简单 的 并 行程 序 ， 相 信 读 者 看 了 这 段 程序 之 后 对 并 行程 序 的 豚 
惧 将 消失 一 大 半 ， 这 段 程序 虽然 简单 ， 主 程序 只 有 三 行 ， 但 它 确实 实现 了 多 个 计算 市 点 的 共同 
工作 ， 也 是 一 个 真正 意义 上 的 并 行程 序 。 下 面 让 我 们 从 这 个 最 简单 的 并 行程 序 开始 ， 逐 渐进 入 
并 行 计 算 世 界 。 

1. MPI 函数 说 明 

(1) 并 行 初始 化 国 数 : int MPI Init(int *argc, char 大 大 大 argV)o 

参数 描述 : ,argc 为 变量 数目 ，argv 为 变量 数组 ， 两 个 参数 均 来 目 main 函数 的 参数 。 

MPI Init0 是 MPI 程序 的 第 一 个 函数 调用 ， 标 志 着 并 行程 序 部 分 的 开始 ， 它 完成 MPI 程序 
的 初始 化 工作 , 所 有 MPI 程序 并 行 部 分 的 第 一 条 可 执行 语句 都 是 这 条 语句 。 该 函数 的 返回 值 为 
调用 成 功 标 志 。 同一 个 程序 中 MPL Init0 只 能 被 调用 一 次 。 函 数 的 参数 为 main 函数 的 参数 地 址 ， 
所 以 并 行程 序 和 一 般 C 语言 程序 不 一 样 ， 它 的 main 函数 参数 是 不 可 缺少 的 ， 因 为 MPI_Init() 

函数 会 用 到 main 函数 的 两 个 参数 。 

(2) 并 行 结束 函数 : int MPI_Finalize(). 

MPI_Finalize0 是 并 行程 序 并 行 部 分 的 最 后 一 个 函数 调用 ， 出 现 该 函数 后 表明 并 行程 序 的 并 
行 部 分 的 结束 。 一 旦 调用 该 函数 后 ， 将 不 能 再 调用 其 他 的 MPI 函数 ， 此 时 程序 将 释放 MPI 的 
数据 结构 及 操作 。 这 条 语句 之 后 的 代码 仍然 可 以 进行 串 行程 序 的 运行 。 该 函数 的 调用 较 简 单 ， 
没有 参数 。 

2. 并 行 源 代码 
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程序 说 明 如 下 。 

以 上 结果 是 在 有 两 个 节点 的 并 行 集群 上 运行 的 结果 。 本 实例 第 一 眼看 上 去 和 普通 的 C 语言 
程序 几乎 一 样 ， 学 过 C 语言 的 读者 会 感觉 到 相当 的 亲切 和 熟悉 。 不 同 的 只 是 多 了 一 个 mpi.h 的 
头 文件 ， 以 及 MPI Init0 和 MPIL Finalize0 这 两 个 函数 。 程 序 虽 然 简单 但 它 确 实 是 一 个 真正 的 并 
行程 序 。 程 序 的 运行 结果 证 明了 这 一 点 : 我 们 程序 中 只 有 一 个 打印 语句 ， 按 照 串 行程 序 的 结果 
将 只 有 一 行 打印 结果 ， 然 而 现在 却 出 现 了 两 行 “hello parallel world!” ， 这 是 我 们 的 两 个 计算 节 
扩 在 向 你 表明 ,我 们 已 经 进入 了 并 行 计算 世界 了 ， 主 程序 中 的 打印 语句 被 每 个 节点 都 执行 了 一 
次 ， 我 们 有 两 个 节点 所 以 打印 了 两 行文 字 ， 它 们 分 别 来 自 于 不 同 的 节点 。 这 个 实例 同时 揭示 了 
并 行程 序 的 基本 结构 : | | 


所 有 并 行程 序 都 必须 是 这 样 的 结构 ， 其 中 main 函数 的 参数 argc 和 argv 分 别 为 程序 输入 参 

数 个 数 及 输入 参数 数组 ，MPI_Init0 函 数 中 需 对 argc 和 argv 取 地 址 &argc、&argv， 这 个 实例 是 并 

行程 序 的 最 小 应 用 ，MPL Imit0 函 数 和 MPI_Finalize0 函 数 之 间 就 是 程序 的 并 行 部 分 ， 将 在 所 有 

节点 上 获得 执行 ， 这 一 点 读者 要 注意 体会 。MPI 的 函数 一 般 都 是 以 MPI 开头 ， 所 以 非常 容易 

识别 。 所 有 的 MPI 并 行程 序 必须 包含 mpi.h 头 文件 , 因为 这 一 头 文件 定义 了 所 有 的 MPI 函数 及 

由 于 许多 读者 设计 程序 时 较 少 用 到 argc 和 argv 参数 , 下面 的 例子 可 以 帮助 大 家 理解 它们 的 
作用 。 


程序 5.2 
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这 一 运行 结果 说 明了 arge 和 argv 参数 的 含义 。 
事实 上 在 MPL 并 行 运行 环境 下 ， 以 下 囊 行 程序 的 运行 结果 也 会 得 到 多 条 条 印 结果 。 
程序 5.3 


RD 


这 是 由 于 程序 在 各 个 节点 都 有 备份 通过 mpirun ,命令 程序 在 所 有 节 点 都 运行 了 一 次 ,所 
以 从 个 进程 福全 了 站 人 人 印 操作 , 但 在 这 种 情况 下 进程 没有 MPI 环境 的 支持 , 无 法 对 自己 进行 
识别 和 进行 节点 间 的 数据 通信 ， 所 以 无 法 完成 真正 的 并 行 计算 。 只 有 在 MPI_Init0 函 数 和 
MPI_Finalize0 函 数 之 间 的 程序 才 具 备 进行 消息 传递 模式 的 并 行程 序 设 计 的 能 力 ， 这 也 是 我 们 采 
用 MPI 进行 Tf 行程 序 设计 的 原因 。 
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5.4.2 ”获取 进程 标志 和 机 秀和 名 


并 行程 序 设计 需要 协调 大 量 的 计算 市 点 参与 计算 , 而 且 需 要 将 任务 分 配 到 各 个 节点 并 实现 
节点 间 的 数据 和 信息 交换 ， 面 对 成 百 上 干 的 不 同 节点 如 没有 有 效 的 管理 将 面临 计算 的 混乱 ， 并 
行 计算 的 实现 将 无 法 完成 ， 因 次 各 个 进程 需要 对 自己 和 其 他 进程 进行 识别 和 管理 ， 每 个 进程 都 
需要 有 一 个 惟一 的 ID， 用 于 并 行程 序 解 决 “ 我 是 谁 ” 的 问题 ， 从 而 实现 对 大 量 计算 节点 的 管理 
和 控制 ， 有 效 地 完成 并 行 计算 任务 。 因 此 获取 进程 标识 和 机 器 名 是 MPI 需要 完成 的 基本 任务 ， 
各 节点 根据 自己 的 进程 ID 判断 哪些 任务 需要 自己 完成 。 

1. MPI 函数 说 明 

(1) 获得 当前 进程 标识 函数 : int MPI_Comm rank ( MPI Comm comm, int *rank )。 

参数 描述 : comm 为 该 进程 所 在 的 通信 域 句柄 ; rank 为 调用 这 一 函数 返回 的 进程 在 通信 域 
中 的 标识 号 。 

这 一 函数 调用 通过 指针 返回 调用 该 函数 的 进程 在 给 定 的 通信 域 中 的 进程 标识 号 rank, AS 
这 一 标识 号 ， 不 同 的 进程 就 可 以 将 目 身 和 其 他 的 进程 区 别 开 来 ， 节 点 间 的 信息 传递 和 协调 均 需 
要 这 一 标识 号 。 一 般 对 于 comm 参数 ,我 们 采用 MPLCOMM_WORLD 通信 域 ， 
MPI_COMM_WORLD 是 MPI 提供 的 一 个 基本 通信 域 ， 在 这 个 通信 域 中 每 个 进程 之 间 都 能 相 
互通 信 ， 我 们 也 可 建立 自己 的 子 通信 域 ， 但 在 这 里 我 们 使 用 MPI 默认 的 MPI_COMM_WORLD 
通信 域 。 

(2) 获取 通信 域 包含 的 进程 总 数 国 数 : int MPI_Comm_size(MPI_Comm comm, int *size). 

BAGH: comm AWW, size 为 函数 返回 的 通信 域 comm 内 包括 的 进程 总 数 。 

这 一 调用 返回 给 定 的 通信 域 中 所 包括 的 进程 总 个 数 , 不 同 的 进程 通过 这 一 调用 得 知 在 给 定 
的 通信 域 中 一 共有 多 少 个 进程 在 并 行 执行 。 

(3) 获得 本 进程 的 机 器 名 函数 : int MPI_Get_processor_name( char *name,int *resultlen)o 

参数 描述 : name 为 返回 的 机 器 名 字符 串 ，resultlen 为 返回 的 机 器 名 长 度 。 

这 个 函数 通过 字符 指针 *name、 整 型 指针 *resultlen 返回 机 器 名 及 机 器 名 字符 串 的 长 度 。 
MPI_MAX_PROCESSOR_NAME 为 机 器 名 字符 串 的 最 大 长 度 ， 它 的 值 为 128。 

2. 并行 源 代码 | 


程序 5.4 


4. 程序 说 明 

本 实例 程序 启动 后 会 在 各 个 节点 同时 执行 ， 各 节点 通过 MPI_Comm_rank0) 函 数 取 得 自 
己 的 进程 标识 myid， 不 同 的 进程 执行 MPL_Comm_rank0 函 数 后 返回 的 值 不 同 ， 如 节点 0 返 
回 的 myid 值 为 0; 通过 MPI_Comm size() 函 数 获得 MPI_COMM_WORLD 通信 域 中 的 进程 
总 数 numprocs， 通 过 MPI_Get_processor_name() 国 数 获得 本 进程 所 在 的 机 器 名 。 各 进程 调用 
自己 的 打印 语句 将 结果 打印 出 来 ， 一般 MPI 中 对 进程 的 标识 是 从 0 开始 的 。 在 本 例 中 机 器 
名 分 别 为 wangl1、wang2、wang3 共 3 个 节点 。 这 里 需要 再 次 强调 的 是 ，MPI 并 行程 序 中 的 
变量 是 分 布 存储 的 ， 每 个 节点 都 有 上 自己 独立 的 存储 地 址 空间 ， 如 myid. numprocs, namelen 
等 变量 在 各 个 节点 是 独立 的 ， 相 同 的 变量 名 它们 的 值 是 可 以 不 同 的 。 大 家 在 读 程序 时 心 
一 定 要 有 变量 分 布 存储 的 概念 ,否则 将 无 法 正确 分 析 程 序 。 图 5.1 解释 了 本 实例 运行 时 的 情 
况 : 每 个 节点 都 有 独立 的 变量 存储 空间 ， 程 序 的 副本 存在 于 所 有 节点 并 分 别 得 到 执行 ， 
个 节点 计算 时 的 地 位 是 平行 的 。 


HA 节 反 3 

机 器 名 : wang2 机 器 名 : wang3 
进程 标识 : 1 进程 标识 : 2 
who.c 程序 副本 who.c 程序 副本 who.c 程序 副本 
变量 值 : 变量 值 : 变量 值 : 


myid=0, numprocs=3 myid=1, numprocs=3 myid=2, numprocs=3 


| 节点 1 
机 器 名 : wangl 
进程 标识 : 0 


5.1 MPI 中 变量 的 分 布 式 存储 方式 


REO —§IdN fifon i 


a 


在 3 个 节点 的 情况 下 如 果 我 们 的 运行 命令 改 为 : 


两 个 进程 ， 因 此 程序 的 输出 会 变 为 : 


这 一 运行 


5.4.3 有 消息 传递 功能 的 并 行程 序 


前 面 我 们 介绍 的 实例 虽然 实现 了 并 行 计 算 功 能 ， 但 由 于 未 采用 消息 传递 机 制 ， 节 点 间 
由 于 变量 地 址 空间 是 相互 独立 的 ， 信 息 无 法 交换 。 消 息 传递 是 MPI 编程 的 核心 功能 ， 也 是 
基于 MPI 编程 的 设计 人 员 需 要 深刻 理解 的 功能 , 由 于 MPI 的 消息 传递 功能 为 我 们 提供 了 灵 
活 方便 的 节点 间 数 据 交 换 和 控制 能 力 , 掌握 好 MPI 消息 传递 编程 方法 就 掌握 了 MPI 并 行程 
序 设计 的 核心 。MPI 为 程序 设计 者 提供 了 丰富 的 消息 传递 函数 封装 ， 本 节 的 实例 就 是 一 个 
简单 的 消息 传递 功能 的 实现 。 

1. MPI 函数 说 明 

(1) 消息 发 送水 数 int MPI_Send(void* buf, int count, MPI_Datatype datatype, int dest, int tag, 
MPI_ Comm comm), 

BB: buf 为 发 送 缓冲 区 的 起 始 地 址 ，count 将 发 送 的 数据 的 个 数 ，datatype 发 送 数据 
的 数据 类 型 ;dest 为 目的 进程 标识 号 ; tag 为 消息 标志 ; comm 为 通信 域 。 

MPL Send0 函 数 是 MPI 中 的 一 个 基本 消息 发 送水 数 , 实现 了 消息 的 阻塞 发 送 , 在 消息 未 发 
送 完 时 程序 处 于 阻塞 状态 。 MPI_Send() 将 发 送 缓冲 区 buf 中 的 count 个 datatype 数据 类 型 的 数据 
发 送 到 目的 进程 ， 目 的 进程 在 通信 域 中 的 标识 号 是 dest， 本 次 发 送 的 消息 标志 是 tag， 使 用 这 一 
标志 就 可 以 把 本 次 发 送 的 消息 和 本 进程 向 同一 目的 进程 发 送 的 其 他 消息 区 别 开 来 。MPI_Send0 
操作 指定 的 发 送 缓 冲 区 是 由 count 个 类 型 为 datatype 的 连续 数据 空间 组 成 ， 起 始 地 址 为 buf。 注 
意 ， 这 里 count 的 值 不 是 以 字 广 计数 ， 而 是 以 数据 类 型 为 单位 指定 消息 的 长 度 ， 这 样 就 独立 于 具 
体 的 实现 ， 并 且 更 接近 于 用 户 的 观点 ， 发 送 10 个 MPI_FLOAT 型 的 数据 ， 则 count 应 为 10， 
而 不 是 所 占 的 字 节 数 。 其 中 datatype 数据 类 型 可 以 是 MPI 的 预定 义 类 型 ， 也 可 以 是 用 户 自 定义 
的 类 型 ， 但 不 能 直接 使 用 C 语言 中 的 数据 类 型 。 

部 分 C 语言 中 的 数据 类 型 和 MPI 预定 义 的 数据 类 型 对 比如 表 5.1 所 示 。 


表 5.1 数据 类 型 对 比 


MPI_CHAR signed char 
MPI SHORT signed short int 
MPL INT signed int 
MPI LONG signed long int 
MPI_UNSIGNED_CHAR unsigned char 
MPI UNSIGNED SHORT unsigned short int 
MPI UNSIGNED unsigned int 
MPIUNSIGNED_LONG unsigned long int 
MPI_FLOAT float 
MPI DOUBLE double 
MPI LONG DOUBLE long double 


(2) 消息 接收 函数 ; int MPI Recv(void* buf, int count, MPI_Datatype datatype, int source, int 
tag, MPI_Comm comm, MPI Status *status) . 

参数 描述 : buf 为 接收 缓冲 区 的 起 始 地 址 ; count 为 最 多 可 接收 的 数据 个 数 ; datatype AE 
收 数据 的 数据 类 型 ，source 为 接收 数据 的 来 源 进程 标识 号 ; tag 为 消息 标识 ,应 与 相应 发 送 操作 
的 标识 相 匹 配 ;，comm 为 本 进程 和 发 送 进程 所 在 的 通信 域 ，status 为 返回 状态 。 

MPI Recv0 是 MPI 中 基本 的 消息 接收 函数 ，MPI_Recv0 从 指定 的 进程 source 接收 消息 ， 
并 且 该 消息 的 数据 类 型 和 消息 标识 和 该 接收 进程 指定 的 datatype 和 tag 相 一 致 , 接收 到 的 消息 所 
包含 的 数据 元 素 的 个 数 最 多 不 能 超过 count 个 。 接收 缓冲 区 是 由 count 个 类 型 为 datatype 的 连续 
元 素 空 间 组 成 ， 由 datatype 指定 其 类 型 ， 起 始 地 址 为 buf，count 和 datatype 共同 决定 了 接收 组 
冲 区 的 大 小 ， 接 收 到 的 消息 长 度 必须 小 于 或 等 于 接收 缓冲 区 的 长 度 ， 这 是 因为 如 果 接 收 到 的 数 
据 过 大 ，MPI 没有 截断 ， 接 收 缓冲 区 会 发 生效 出 错 译 ， 因 此 编程 者 要 保证 接收 缓冲 区 的 长 度 不 
小 于 发 送 数 据 的 长 度 。 如 果 一 个 短 于 接收 缓冲 区 的 消息 到 达 ， 那 么 只 有 相应 于 这 个 消息 的 那些 
地 址 被 修改 ，count 可 以 是 零 ， 这 种 情况 下 消息 的 数据 部 分 是 空 的 。 其 中 datatype 数据 类 型 可 以 
是 MPI 的 预定 义 类 型 , 也 可 以 是 用 户 自 定义 的 类 型 , 通过 指定 不 同 的 数据 类 型 调用 MPI_Recv0 
可 以 接收 不 同类 型 的 数据 。 

消息 接收 函数 和 消息 发 送水 数 的 参数 基本 是 相互 对 应 的 ， 只 是 消息 接收 函数 多 了 一 个 
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status 参数 ， 返 回 状态 变量 status 用 途 很 广 ， 它 是 MPI 定义 的 一 个 数据 类 型 ， 使 用 之 前 需要 
用 户 为 它 分 配 空间 。 在 C 语言 实现 中 ， 状 态 变量 是 由 至 少 3 个 域 组 成 的 结构 类 型 。 这 3 个 
域 分 别 是 : MPI SOURCE，MPI TAG 和 MPI ERROR, 可 以 包括 其 他 的 附加 域 ， 这 


< 


样 通过 对 status.MPI_SOURCE、status.MPI_TAG 和 status. MPI_ ERROR 的 引用 就 可 以 得 到 
返回 状态 中 所 包含 的 发 送 数据 进程 的 标识 , 发 送 数据 使 用 的 tag 标识 和 该 接收 操作 返回 的 错 
误 代 码 。 


2. 并 行 源 代码 


3. 运行 结果 (4 个 节点 ) 


4. 程序 说 明 

本 实例 由 其 他 进程 通过 MPI 消息 传递 机 制 向 0 进程 发 送 “Hello World” 字 符 串 数据 , 非 0 
进程 采用 MPI_Send() phi 2X ik AGE, 0 进程 通过 循环 语句 分 别 通过 MPI_Recv0 函 数 接收 来 目 其 
他 进程 的 字符 串 数据 。 接 收 缓冲 区 和 发 送 缓冲 区 均 采 用 同名 变量 message， 由 于 地 址 空间 是 独立 
的 ， 不 同 进程 中 的 message 变量 虽然 名 字 相 同 但 却 是 完全 不 相关 的 变量 。 程 序 在 进行 字符 串 的 
信息 传递 时 发 送 长 度 要 加 1 以 包含 串 结束 的 标志 。 运 行 结果 中 的 3 条 打印 结果 都 是 由 进程 0 打 
印 的 。 

MPI 的 消息 传递 过 程 与 信件 通信 的 原理 完全 相同 ， 如 图 5.2 所 示 ， 该 图 将 发 送 和 接收 函数 
中 的 参数 与 信封 上 的 要 素 作 了 一 一 对 应 ， 从 而 帮助 大 家 理解 消息 传递 的 机 制 。 


信 件 
收 件 人 dest ”信件 标识 tag ”邮编 MPI COMM WORLD 


信件 内 容 缓冲 区 buf， 数 据 类 型 MPI_Datatype， 数 据 个 数 count 


发 件 人 source 信件 标识 tag 


5.2 MPI! 中 消息 传递 与 信封 的 对 比 


由 于 MPI Send0 和 MPI Recv(0 为 阻塞 通信 函数 ， 发 送 和 接收 函数 一 定 要 成 对 匹配 ， 否 则 
程序 将 一 直 处 于 阻塞 状态 无 法 结束 。 而 且 相 关 参 数 也 要 对 应 ， 如 dest 和 source 要 对 应 ， 由 0 进 
程 向 1 进程 发 送 了 信息 ，1 进程 中 一 定 要 有 一 个 接收 函数 接收 来 目 于 0 进程 的 数据 ， 而 且 tag 
标识 要 相同 ， 因 为 只 有 相同 tag 标识 的 数据 才能 被 接收 函数 接收 。 

在 本 例 中 MPI_ Send0 函 数 和 MPIL Recv0 函 数 实 现 了 信息 在 不 同 节 点 间 的 传递 ， 为 节点 之 
间 协 同 并 行 工 作 提供 了 可 能 。 我 们 从 实例 程序 中 看 到 需要 6 个 MPI 函数 就 能 实现 基本 的 节点 间 
消息 传递 功能 ， 这 6 个 函数 如 下 。 

并 行 初 始 化 函数 : MPI_Init() 

获取 总 的 进程 数 函 数 : MPI_ Comm_size() 

获取 本 进程 ID 函数 : MPI_Comm rank() 

消息 发 送 函 数 : MPI Send() 

消息 接收 函数 : MPI Recv(0) 
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并 行 结束 函数 : MPI Finalize() 

这 6 个 函数 是 编写 基于 消息 传递 模式 并 行程 序 的 最 小 函数 集 ， 采 用 这 6 个 函数 就 能 完成 大 
多 数 基 本 的 并 行程 序 的 设计 ， 甚 至 有 人 说 采用 这 几 个 函数 能 完成 几乎 所 有 的 并 行程 序 设 计 ， 其 他 
国 数 可 以 用 以 上 6 个 函数 来 实现 ， 所 以 并 行 计 算 程 序 设 计 非 常 容易 入 门 ， 只 要 掌握 了 这 6 个子 
数 的 用 法 就 能 编写 一 般 的 基于 消息 传递 的 MPI 并 行程 序 。 


5.4.4 Monte Carlo 法 在 并 行程 序 设 计 中 的 应 用 


REEF (Monte Carlo ) 方法 ,又 称 随机 抽样 或 统计 试验 方法 , 属于 计算 数学 的 一 个 分 支 ， 
它 是 在 20 世纪 40 年 代 中 期 为 了 适应 当时 原子 能 事业 的 发 展 而 发 展 起 来 的 。 主 要 思想 是 通过 随 
机 试验 的 方法 ， 得 到 所 要 求解 的 问题 ( 某 种 事件 ) 出 现 的 频率 ， 用 它们 作为 问题 的 解 。 简 而 言 
之 ， 就 是 用 频率 来 代替 概率 ， 当 实验 样本 足够 大 的 时 候 ， 就 可 以 得 到 比较 精确 的 解 结果 。 蒙 特 
卡 多 是 一 种 充满 了 魅力 的 算法 ， 我 们 往往 可 以 以 一 种 简单 的 方法 实现 许多 复杂 的 算法 ， 大 量 的 
智能 算法 中 也 都 有 蒙特 卡 罗 算 法 的 喘 影 ， 由 于 采用 了 随机 数 ， 所 以 蒙特 卡 罗 方 法 的 并 行 化 能 力 
特别 强 ， 而 且 特 别 简 单 。 

本 市 基于 蒙特 卡 罗 思 想 用 MPI 程序 实现 对 zx 值 的 并 行 求解 ， 以 展示 蒙特 卡 罗 算法 的 神奇 
魅力 。 

根据 蒙特 卡 罗 方 法 的 思想 , 我们 以 坐标 原点 为 圆心 作 一 个 直径 为 1 的 单位 圆 ， 再 作 一 个 正 
方形 与 此 圆 相 切 ( 如 图 5.3 所 示 ) 。 在 这 个 正方 形 内 随机 产生 count 个 点 ,判断 是 否 落 在 圆 内 ， 
将 落 在 圆 内 的 点 数目 计 作 mm， 根 据 概 率 理论 ，m 与 count 的 比值 就 近似 可 以 看 成 融和 正方 形 的 

m _ Tn0.5” 
面积 之 比 ， 由 于 圆 的 半径 为 0.5， 正 方形 的 边 长 为 1, RTA cout ”1 ， 则 r 值 可 以 用 以 下 
4m 


tc = 
公式 计算 : count 。 本 节 就 采用 这 一 方法 来 计算 r 的 近似 值 。 


5.3 计算 7 值 示意 图 


i, 


2. 运行 结果 (3 个 节点 ) 


3. 程序 说 明 

本 例 在 设计 时 引入 numprocs 参数 ， 即 总 的 节点 数 ， 通 过 对 该 参数 的 使 用 可 以 实现 在 集群 
节点 个 数 发 生变 化 时 不 需要 对 程序 作 任何 修改 ， 我 们 通常 在 编写 并 行程 序 时 都 要 求 能 对 节点 的 
数目 进行 动态 适应 ， 也 就 是 节点 可 扩展 。 在 示例 中 各 节点 对 落 入 圆 内 的 随机 点 进行 计数 ， 并 将 
计算 结果 发 送 到 主 节点 ， 由 主 节点 对 所 有 数据 汇总 ， 并 计算 x 值 。 系 统 打印 出 各 节点 计算 的 x 值 
和 汇总 后 的 x 值 。 这 种 x 值 计算 方法 收敛 速度 较 慢 ， 但 是 非常 优美 ， 随 机 数 的 威力 是 很 强大 的 。 
这 类 算法 具有 很 好 的 并 行 化 能 力 ， 各 节点 几乎 不 需要 作 信 息 交换 ， 独 立 完 成 自己 的 计算 工作 。 


5.4.5 ”并行 计算 中 节点 间 的 Reduce 操作 


Map/Reduce 是 Google 引 以 自豪 的 技术 之 一 ，Map/Reduce 认为 能 很 好 地 实现 计算 
的 并 行 化 ， 成 为 云 计算 中 的 一 项 重要 技术 ， 我 们 姑且 不 论 Map/Reduce 技术 是 否 会 成 为 未 来 云 
计算 的 主流 技术 ， 其 实 Map/Reduce 也 不 是 Google 的 创新 ， 在 MPI 中 就 一 直 提供 对 各 节点 数 
据 的 归 约 ( Reduce ) 操作 ， 可 以 方便 地 完成 多 个 节点 向 主 节点 的 归 约 ， 并 提供 了 相应 的 函数 支 
持 。 云 计算 从 技术 的 角度 看 就 是 从 并 行 计算 一 步 步 走 过 来 的 。 本 节 我 们 将 来 看 看 在 MPI 中 是 如 


何 实现 Reduce 操作 的 。 
本 节 中 我 们 以 采用 Monte-Carlo 法 计算 函数 积分 的 例子 来 说 明 MPI 中 Reduce 函数 的 使 用 


方法 。 我 们 采用 这 一 方法 来 计算 y= 在 0~ 10 之 间 的 积分 值 。 具 体 计算 方法 如 图 5.4 所 示 。 
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5.4 Monte-Carlo 计算 积分 的 方法 


该 算法 的 思想 是 通过 随机 数 把 函数 划分 成 小 的 矩形 块 ， 通 过 求 和 矩形 块 的 面积 和 来 求 积 分 i 
值 ， 我 们 生成 nS 0~ 10 的 随机 数 ， 求 出 该 随机 数 所 对 应 的 函数 值 作为 矩形 的 高 ， 由 于 随机 数 二 
在 n 很 大 时 会 近似 平均 分 布 于 0~ 10， 所 以 矩形 的 宽 取 相同 的 值 为 1%/ ， 对 所 有 的 矩形 块 求 和 ” 卫 
即 可 得 函数 的 积分 值 。 

1，MPI 函数 说 明 is 

归 约 函数 : int MPI _Reduce(void *sendbuf,void *recvbuf,int count,MPI_Datatype datatype, i 
MPI _Op op, int root, MPI_ Comm comm) 的 

参数 描述 : sendbuf 为 数据 发 送 缓冲 区 ，recvbuf 为 数据 接收 缓冲 区 ;count 为 发 送 的 数据 个 。 性 
数 ; datatype 为 发 送 的 数据 类 型 ，op 为 执行 的 归 约 操作 ，root 指定 根 节点 ; comm 为 通信 域 。 = 沁 

MPI_Reduce 提供 了 多 种 归 约 操作 ， 如 表 5.2 所 示 。 ft 

#2 5.2” 归 约 操作 i 

MPI_MAX 求 最 大 值 Me 
MPI_MIN 求 最 小 值 
MPI_SUM 求 和 
MPI_PROD 求 积 

MPI LAND 逻辑 与 
MPI_BAND 按 位 与 
MPI_LOR 逻辑 或 
MPI_BOR 按 位 或 
MPI_LXOR 逻辑 异 或 
MPI_BXOR 按 位 异 或 

MPI MAXLOC 最 大 值 且 相应 位 置 


MPI MINLOC 最 小 值 且 相应 位 置 


民 
< 
x 
Ip 
二 
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3. 运行 结果 


4. 程序 说 明 

以 上 程序 通过 随机 数 将 积分 区 域 划 分 为 100000000 个 小 的 区 域 ， 各 节点 计算 一 部 分 小 矩形 
的 面积 ， 最 后 通过 MPI_ Reduce(0 函 数 对 所 有 节点 的 计算 结果 进行 归 约 求 和 得 到 最 后 的 积分 值 ， 
归 约 的 过 程 就 是 各 节点 向 主 节 点 发 送 数 据 ， 由 主 节点 接收 数据 并 完成 指定 的 计算 操作 ， 这 一 思 
想 与 云 计 算 中 的 Map/Reduce 思想 类 似 , 都 是 将 任务 分 配 到 各 节点 计算 最 后 由 主 节 点 汇总 结果 。 
程序 通过 myid 和 numpros 参 数 的 配合 使 同一 段 程序 在 不 同 的 节点 运行 时 完成 不 同 部 分 的 积分 工 
作 ， 这 利用 了 MPI 并 行 编程 中 变量 分 布 式 存储 的 原理 ， 不 同 的 节点 其 myid 值 是 不 同 的 。 可 见 
在 MPI 中 会 出 现 相 同 的 代码 在 不 同 的 节点 执行 时 结果 不 一 样 的 情况 , 这 在 串 行程 序 中 是 不 会 出 
现 的 ， 大 家 要 注意 理解 。 


5.4.6 用 MPI 的 6 个 基本 子 数 实现 Reduce 图 数 功能 


我 们 前 面 说 过 采用 MPI 的 6 个 基本 水 数 可 以 实现 大 部 分 的 并 行 计 算 功 能 ,但 为 了 方便 程序 
设计 人 员 ，MPI 为 我 们 提供 了 大 量 的 函数 供 使 用 ， 这 些 功 能 我 们 大 多 可 以 采用 这 6 个 函数 来 实 
现 。 本 节 将 演示 如 何 用 基本 函数 实现 MPI 中 的 MPI Reduce0 函 数 的 部 分 功能 ， 我 们 所 选 的 问 
题 同 样 是 采用 随机 数 方式 计算 积分 ， 但 我 们 并 不 保证 MPICH 一 定 是 这 样 实现 的 。 

1. 并 行 源 代码 

程序 5.8 


| Ba 
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2. 运行 结果 


3. 程序 说 明 : 


本 示例 程序 中 我 们 自 定义 了 一 个 归 约 函数 Myreduce(), 所 用 到 的 MPI 函数 没有 超过 6 
个 基本 函数 ， 该 函数 包括 4 个 参数 ， 第 一 个 参数 sendbuf 为 各 节点 的 发 送 缓冲 区 ， 第 二 个 参 
数 recvbuf 为 根 节 点 的 接收 缓冲 区 ， 第 三 个 参数 count 为 每 个 节点 发 送 的 数据 个 数 ， 第 四 个 
参数 root 为 需要 指定 的 接收 数据 并 归 约 数据 的 根 节 点 。 该 函数 没有 给 出 具体 的 归 约 操作 ， 
默认 为 对 所 有 数据 做 求 和 的 归 约 操作 。 程 序 执行 到 这 一 函数 后 将 各 自 节点 的 指定 数据 向 根 
节点 发 送 , 并 由 根 节 点 完成 求 和 操作 ,其 基本 的 信息 传递 工作 仍 由 MPI_ Send0 和 MPI_Revc() 
国 数 来 完成 。 本 例 我 们 以 对 函数 y= 2 在 [0,10] 区 间 求 积分 为 例 ， 应 用 自 定义 的 Myreduce() 
消 数 实现 所 有 市 点 数据 的 求 和 ， 计 算 结 果 与 调用 MPI_Reduce() 函 数 的 结果 一 样 ， 这 说 明 采 
用 6 个 基本 函数 是 可 以 实现 大 部 分 MPI 功能 的 。 我 们 也 可 以 采用 6 个 基本 函数 编写 实现 其 
他 复杂 的 MPI 函数 。 


5.4.7 Wit MPI 并 行程 序 时 的 注意 事项 


并 行程 序 的 设计 与 串 行 程序 的 设计 有 很 大 的 不 同 ， 需 要 考虑 的 情况 更 多 、 更 复杂 ， 因 此 
我 们 编写 MPI 并 行程 序 时 要 注意 以 下 的 一 些 问 题 ， 更 多 的 经 验 需 要 大 家 在 实践 中 进一步 总 结 
和 提高 。 

(1) 并 行程 序 的 可 以 执行 代码 和 MPICH 安装 文件 必须 在 每 个 节点 的 相同 路 径 有 副本 ， 这 
可 以 通过 复制 或 NFS 共享 等 方法 来 实现 。 

(2) 并 行程 序 中 main 函数 必须 带 参数 ，MPI_Init0 函 数 需要 这 两 个 参数 ， 这 与 一 般 串 行程 
序 不 同 。 

(3 ) 并 行程 序 必 须 包 含 mpi.h 这 一 头 文件 ，mbih 中 定义 了 MPI 的 所 有 函数 调用 及 常数 。 

(4) 并 行程 序 中 变量 的 地 址 是 分 布 式 的 ， 各 个 节点 的 同名 变量 是 独立 的 ， 相 互 没有 关系 ， 
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这 是 要 特别 注意 的 ， 不 要 和 串 行 程序 混 消 。 

(5 ) 要 注意 MPI 函数 调用 中 的 参数 很 多 都 是 指针 ,并 作为 函数 的 返回 值 ， 因 此 需要 对 变量 
取 地 址 。 如 MPI_Init0、MPI_Comm_rank0 、MPI_Comm_size0 、MPI_Send0、MPI_Recv0 等 。 

(6 ) 采 用 MPI 进行 字符 串 消 县 传递 时 需要 将 字符 串 的 结束 标志 一 同 传送 , 所 以 字符 串 传输 
长 度 是 字符 数 加 1。 

(7 ) 由 于 网 络 通信 速度 远 低 于 CPU 的 技术 速度 , MPI 在 进行 消息 传递 时 将 大 大 增加 计算 
时 间 ， 因 此 在 进行 MPI 并 行程 序 设 计 的 时 候 我 们 往往 以 “计算 换 通信 ”，,， 也 就 是 说 尽量 减少 节 
点 间 的 数据 交换 ， 甚 至 可 以 以 增加 计算 时 间 为 代价 。 

(8) 消息 传递 时 要 注意 缓冲 区 大 小 的 匹配 ， 否 则 会 出 现 溢 出 。 

(9) 设计 并 行程 序 时 一 般 应 能 动态 地 适应 节点 个 数 的 变化 ， 不 要 因为 节点 个 数 的 增 减 而 出 
现 修改 程序 源 代 码 的 问题 。 

(10 ) 在 进行 MPI 的 非 阻塞 通信 时 , 一 定 要 在 数据 通信 完成 后 才能 调用 接收 数据 的 缓冲 区 ， 
但 可 以 在 数据 通信 的 同时 对 其 他 数据 操作 。 为 保证 数据 通信 已 完成 ， 应 在 调用 接收 数据 缓冲 区 
前 调用 MPI_Wait(。 

(11) MPI 在 进行 消 奶 传递 时 的 数据 类 型 一 定 要 采用 其 自 定 义 的 数据 类 型 (如 MPI_DOUBLE ) 
或 是 被 用 户 说 明 并 提交 系统 的 数据 类 型 ， 而 不 能 是 普通 的 数据 类 型 (如 double ) 。 


练习 题 


1. 什么 是 MPI? 

2. MPI 支持 ‘ : : 等 语言 的 调用 ， 能 满足 大 多 数 科 学 计 
算 的 应 用 需要 。 

3， 简 述 MPICH 并 行 环 境 建 立 的 主要 步骤 。 

4. 动手 配置 MPI 节点 间 的 ssh 无 密码 访问 。 

5， 简 述 基于 蒙特 卡 罗 思 想 求 x 值 的 编程 方法 ， 并 编写 用 MPI 程序 。 
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MPI 是 计算 与 存储 分 离 ，Hadoop 是 计算 向 存储 迁移 ， 如 图 6.2 所 示 。 


MPI 计 算 存 储 分 离 Hadoop 计 算 向 存储 迁移 


计算 计算 计算 
存储 存储 存储 
HDFS 文 件 系 统 


6.2 Hadoop 与 MPI 在 数据 处 理 上 的 差异 


在 MPI 中 数据 存储 的 节点 和 数据 处 理 的 节点 往往 是 不 同 的 ， 一 般 在 每 次 计算 开始 时 MPI 
需要 从 数据 存储 节点 读 取 需 要 处 理 的 数据 分 配给 各 个 计算 节点 对 数据 进行 处 理 , 因此 MPI 中 数 
据 存储 和 数据 处 理 是 分 离 的 。 对 于 计算 密集 型 的 应 用 MPI 能 表现 出 良好 的 性 能 ， 但 对 于 处 理 
TB 级 数据 的 数据 密集 型 应 用 由 于 网 络 数据 传输 速度 很 慢 ，MPI 的 性 能 会 大 大 降低 ， 甚 至 会 到 
不 可 个 受 的 地 步 , 所 以 对 于 构建 在 MPI 上 的 并 行 计算 系统 网 络 通讯 速度 一 直 是 一 个 重要 的 性 能 
指标 ， 用 “计算 换 通 信 ” 也 是 MPI 并 行程 序 设计 中 的 基本 原则 。 

在 Hadoop 中 由 于 有 HDFS 文件 系统 的 支持 ， 数 据 是 分 布 式 存储 在 各 个 节点 的 ， 计 算 时 各 
节点 读 取 存 储 在 自己 节点 的 数据 进行 处 理 ， 从 而 避免 了 大 量 数据 在 网 络 上 的 传递 ， 实 现 “计算 
向 存储 的 迁移 ”。 


6.2 HDFS 


Hadoop 系统 实现 对 大 数据 的 目 动 并 行 处 理 ， 是 一 种 数据 并 行 方法 ， 这 种 方法 实现 自动 并 
行 处 理 时 需要 对 数据 进行 划分 ， 而 对 数据 的 划分 在 Hadoop 系统 中 从 数据 的 存储 就 开始 了 ， 因 
此 文件 系统 是 Hadoop 系统 的 重要 组 成 部 分 ， 也 是 Hadoop 实现 目 动 并 行 框架 的 基础 。Hadoop 
的 文件 系统 称 为 HDFS ( Hadoop Distributed File System ) 。 


6.2.1 HDFS 文件 系统 的 原型 GFS 


on 中 的 HDES 原型 来 自 于 Google 文件 系统 ( Google File System, GFS) ， 为 了 满足 
Google 迅速 增长 的 数据 处 理 要 求 ，Google 设计 并 实现 了 GFS。Google 文件 系统 是 一 个 可 扩展 
的 分 布 式 文件 系统 ， 用 于 对 大 量 数 据 进行 访问 的 大 型 、 分 布 式 应 用 。 它 运行 于 廉价 的 普通 硬件 
上 , 但 可 以 提供 容错 功能 。 它 可 以 给 大 量 的 用 户 提 供 总 体 性 能 较 高 的 服务 ， 也 可 以 提供 容错 功 
能 。 我 们 认为 GFS 是 一 种 面向 不 可 信服 务 器 节点 而 设计 的 文件 系统 。 

谷歌 “三 宝 ” 是 “Google 文件 系统 ”、“BigTable 大 表 ”、“MapReduce 算法 ”， 有 了 自 
己 的 文件 系统 ， 谷 歌 就 可 以 有 效 地 组 织 庞 大 的 数据 、 服 务 器 和 存储 ， 并 用 它们 工作 。 作 为 谷歌 
“二 宝 ” 的 其 中 之 一 ，GEFS 的 技术 优势 不 言 而 喻 。 

GFS 为 分 布 式 结构 ， 它 是 一 个 高 度 容错 网 络 文件 系统 ， 主 要 由 一 个 Master ( 主 ) 和 众多 


chunkserver ( 大 块 设备 ) 构成 的 ， 体 系 结构 如 图 6.3 所 示 。 


GFS 主 节点 (master) 


《文件 名 ， 块 索引 ) + /foo/bar 


文件 名 字 空 间 | 


《 块 铝 柄 ， 副 本 位 置 ) 


《 块 铝 柄 ， 学 节 区 间 ) 


《对 块 服务 器 的 指示 ) | 〈 块 服务 器 的 状态 ) 


GFS 大 块 服务 器 “| 很 多 个 FS 人 决 服务 器 | 
LINUX 文件 系统 LINUX 文 件 系统 ‘ 


【 块 数据 ) 
说 明 : ——p 代表 控制 信息 


me 代表 数据 信息 


6.3 GFS 的 体系 结构 


下 面 简单 描述 一 下 GFS 的 工作 过 程 。 

(1) 客户 端 使 用 固定 大 小 的 块 将 应 用 程序 指定 的 文件 名 和 字 节 偏 移 转换 成 文件 的 一 个 块 索 
引 Al Master 发 送 包 含 文件 名 和 块 索引 的 请 求 。 

(2) Master 收 到 客户 端 发 来 的 请 求 ，Master 疝 块 服 务 器 发 出 指示 ， 同 时 时 刻 监 控 众 多 
chunkserver 的 状态 。chunkserver 缓存 Master 从 客户 端 收 到 的 文件 名 和 块 索引 等 信息 。 

(3 ) Master 通过 和 chunkserver 的 交互 ,向 客户 问 发 送 chunk—handle 和 副本 位 置 。 其 中 文 
件 被 分 成 者 干 个 块 ， 而 每 个 块 都 是 由 一 个 不 变 的 、 全 局 惟一 的 64 位 的 chunk-handle 标识 。 
Handle 是 由 Master 在 块 创建 时 分 配 的 。 而 出 于 安全 性 考虑 ， 每 一 个 文件 块 都 要 被 复制 到 多 个 
chunkserver 上 ， 一 般 默 认 3 个 副本 。 

(4) 客户 端 向 其 中 的 一 个 副本 发 出 请 求 ， 请 求 指定 了 chunk handle ( chunkserver 以 chunk 
handle 标识 chunk ) 和 块 内 的 一 个 字 节 区 间 。 

(5) 客户 端 从 chunkserver 获得 块 数 据 ， 任 务 完 成 。 

通常 Client 可 以 在 一 个 请 求 中 询问 多 个 chunk 的 地 址 ， 而 Master 也 可 以 很 快 回应 这 些 
请 求 。 

GFS 是 可 以 被 多 个 用 户 同 时 访问 的 , 一 般 情况 下 ， Application 和 chunkserver 是 可 以 在 同一 
台 机 子 上 的 , 主要 的 数据 流量 是 通过 Application 和 chunkserver 之 间 , 数据 访问 的 本 地 性 极 大 地 
减少 了 Application 与 Master 之 间 的 交互 访问 ,减少 了 Master 的 负荷 量 , 提 高 了 文件 系统 的 性 能 。 

客户 端 从 来 不 会 从 Master 读 和 写 文 件数 据 。 客 户 端 只 是 询问 Master 它 应 该 和 哪个 
chunkserver 联系 。Client 在 一 段 限 定 的 时 间 内 将 这 些 信息 缓存 ， 在 后 续 的 操作 中 客户 端 直 接 和 
chunkserver 交互 。 由 于 Master 对 于 读 和 写 的 操作 极 少 ， 所 以 极 大 地 减 小 了 Master 的 工作 负荷 ， 
真正 提高 了 Master 的 利用 性 能 。 | 
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Master 保存 着 三 类 元 数据 ( metadata) : 文件 名 和 块 的 名 字 空 间 、 从 文件 到 块 的 映射 、 
副本 位 置 。 所 有 的 metadata 都 放 在 内 存 中 。 操 作 日 志 的 引入 可 以 更 简单 、 更 可 靠 地 更 新 Master 
的 信息 。 

Master 为 GFS 的 控制 和 神经 系统 ,副本 为 Master 的 备份 ,Chunk 主要 用 来 和 用 户 交 换 数 据 。 
网 络 中 的 主机 瘫痪 ， 不 会 对 整个 系统 造成 大 的 有 影响， 替换 上 去 的 主机 会 自动 重建 数据 。 即 使 
Master 瘫痪 ,也 会 有 Shadow 作为 替补 , 并 且 Shadow 在 一 定时 候 也 会 充当 Master 来 提供 控制 和 
数据 交换 。Google 每 天 有 大 量 的 硬盘 损坏 ， 但 是 由 于 有 GFS， 这 些 硬盘 的 损坏 是 允许 的 。 

有 人 形象 地 比喻 : 分 布 式 的 文件 系统 被 分 块 为 很 多 细胞 单元 ， 一旦 细胞 损坏 ， 神 经 系统 
( Master ) 会 迅速 发 现 并 有 相应 的 见 余 措施 来 使 系统 正常 运行 ， 这些 细胞 可 以 看 作 很 多 GFS 主 
Mio AX LVEF HORE ARAN LEK. 

当然 ， 作 为 Google 的 技术 基石 ，GFS 可 以 给 大 量 的 用 户 提供 总 体 性 能 较 高 的 服务 ， 具 有 
以 下 优势 。 

(1) Google 采用 的 存储 方法 是 大 量 、 分 散 的 普通 廉价 服务 器 的 存储 方式 ， 极 大 地 降低 了 成 本 。 

(2) 对 大 文件 数据 快速 存 取 ， 这 个 毫 无 疑问 是 可 以 达到 的 。 

(3) 容易 扩展 ， 它 是 成 本 很 低 的 普通 电脑 ， 支 持 动态 插入 节点 。 

(4) 容错 能 力 强 ， 它 的 数据 同时 会 在 多 个 chunkserver 上 进行 备份 ， 具 有 相当 强 的 容错 性 。 

(5) 高 效 访问 ， 它 是 通过 Big table 来 实现 的 ， 它 是 Google File System 上 层 的 结构 。GFS 在 
实现 分 布 式 文件 系统 的 做 法 上 面 很 多 都 是 简单 的 ， 但 是 确实 非常 高 效 。 

(6) GFS 相对 于 HDFS 稳定 性 是 无 庸 置疑 的 ， 并 在 Google 系统 中 得 到 了 采用 且 稳 定 的 
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6.2.2 ”HDEFS 文件 的 基本 结构 


HDFS 是 一 种 典型 的 主 从 式 的 分 布 式 文件 系统 ， 该 文件 系统 完全 是 仿照 Google 的 GFS 文 
件 系 统 而 设计 的 ，HDFS 的 架构 如 图 6.4 所 示 。 

HDFS 由 一 个 名 叫 Namenode 的 主 节 点 和 多 个 名 叫 Datanode 的 子 世 点 组 成 。Namenode 
存储 着 文件 系统 的 元 数据 ， 这 些 元 数据 包括 文件 系统 的 名 字 空 间 等 ， 向 用 户 映射 文件 系统 ， 
并 负责 管理 文件 的 存储 等 服务 ,但 实际 的 数据 并 不 存放 在 Namenode。Namenode 的 作用 就 像 
是 文件 系统 的 总 指挥 ， 并 向 访问 文件 系统 的 客户 机 提供 文件 系统 的 映射 ， 这 种 做 法 并 不 是 
Google 或 Hadoop 的 创新 ， 这 和 传统 并 行 计算 系 统 中 的 单一 系统 映像 (Single System Image ) 
的 做 法 相同 。HDFS 中 的 Datanode 用 于 实际 对 数据 的 存放 ,对 Datanode 上 数据 的 访问 并 不 通 
过 Namemode， 而 是 与 用 户 直接 建立 数据 通信 。 Hadoop 启动 后 我 们 能 看 到 Namenode 和 
Datanode 这 两 个 进程 。 
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6.4 HDFS 的 架构 


HDFS 的 工作 过 程 是 这 样 的 , 用户 请 求 创建 文件 的 指令 由 Namenode 进行 接收 ，Namenode 
将 存储 数据 的 Datanode 的 卫 返回 给 用 户 ， 并 通知 其 他 接收 副本 的 Datanode， 由 用 户 直接 与 
Datanode 进行 数据 传送 。Namenode 同时 存储 相关 的 元 数据 。 整 个 文件 系统 采用 标准 TCP/IP 
协议 通信 ， 实 际 是 染 设 在 Linux 文件 系统 上 的 一 个 上 层 文 件 系 统 。HDFS 上 的 一 个 典型 文件 大 
小 一 般 都 在 G FET FA. 

主 从 式 是 云 计 算 系 统 的 一 种 典型 染 构 方法 ,系统 通过 主 节 点 屏蔽 底层 的 复杂 结构 ， 并 向 用 
户 提供 方便 的 文件 目录 映射 。 有 些 改进 的 主 从 式 架 构 可 能 会 采用 分 层 的 主 从 式 方法 ， 以 减轻 主 
DANS 


6.2.3 HDES 的 存储 过 程 


HDFS 在 对 一 个 文件 进行 存储 时 有 两 个 重要 的 策略 : 一 个 是 副本 策略 ， 一 个 是 分 块 策略 。 
副本 策略 保证 了 文件 存储 的 高 可 靠 性 ， 分 块 策略 保证 数据 并 发 读 写 的 效率 并 且 是 MapReduce 
实现 并 行 数 据 处 理 的 基础 。 


HDFS 的 分 块 策略 :通常 HDFS 在 存储 一 个 文件 会 将 文件 切 为 64MB 大 小 的 块 来 进行 存储 ， 


数据 块 会 被 分 别 存储 在 不 同 的 Datanode 节点 上 ， 这 一 过 程 其 实 就 是 一 种 数据 任务 的 切 分 过 程 ， 
在 后 面 对 数 据 进行 MapReduce 操作 时 十 分 重要 ,同时 数据 被 分 块 存储 后 在 数据 读 写 时 能 实现 对 
数据 的 并 发 读 写 ， 提 高 数据 读 写 效率 。HDFS 采用 64MB 这 样 较 大 的 文件 分 块 策略 有 以 下 3 个 
优点 : 

(1) 降低 客户 端 与 主 服务 器 的 交互 代价 ; 

(2) 降低 网 络 负载 ; 

(3) 减少 主 服 务 顺 中 元 数据 的 大 小 。 

HDFS 的 副本 策略 : HDFS 对 数据 块 典 型 的 副本 策略 为 3 个 副本 ， 第 一 个 副本 存放 在 本 地 
方 护 ， 第 二 个 副本 存放 在 同一 个 机 架 的 男 一 个 节点 ， 第 三 个 本 副本 存放 在 不 同 机 架 上 的 男 一 个 
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节点 。 这 样 的 副本 策略 保证 了 在 HDFS 文件 系统 中 存储 的 文件 具有 很 高 的 可 靠 性 。 

一 个 文件 写 入 HDFS 的 基本 过 程 可 以 摘 述 如 下 : 写 入 操作 首先 由 Namenode 为 该 文件 创建 
一 个 新 的 记录 ， 该 记录 为 文件 分 配 存储 站 点 包括 文件 的 分 块 存 储 信 息 ， 在 写 入 时 系统 会 对 文件 
进行 分 块 , 文件 写 入 的 客户 端 获 得 存储 位 置 的 信息 后 直接 与 指定 的 Datanode 进行 数据 通信 , 将 
文件 块 按 Namenode 分 配 的 位 置 写 入 指定 的 Datanode， 数 据 块 在 写 入 时 不 下 通过 Namenode， 
因此 Namenode 不 会 成 为 数据 通信 的 瓶颈 。 


6.3 MapReduce 编程 框架 


在 云 计 算 和 大 数据 技术 领域 被 广泛 提 到 并 被 成 功 应 用 的 一 项 技术 就 是 MapReduce。 
MapReduce 是 Google 系统 和 Hadoop 系统 中 的 一 项 核心 技术 。 


6.3.1 MapReduce 的 发 展 历 史 


MapReduce 出 现 的 历史 要 追 述 到 1956 年 , 图 灵 奖 获得 者 著名 的 人 工 智能 专家 McCarthy 首 
次 提出 了 LISP 语言 的 构想 ， 而 在 LISP 语言 中 就 包含 了 现在 我 们 所 采用 的 MapReduce 功能 。 
LISP 语言 是 一 种 用 于 人 工 智能 领域 的 语言 ， 在 人 工 智能 领域 有 很 多 的 应 用 ，LISP 在 1956 年 设 
计时 主要 是 希望 能 有 效 地 进行 “符号 运算 ”。LISP 是 一 种 表 处 理 语言 ， 其 逻辑 简单 但 结构 不 同 
于 其 他 的 高 级 语言 。1960 4F, McCarthy 更 是 极 有 预见 性 地 提出 : “今后 计算 机 将 会 作为 公共 
设施 提供 给 公众 ”, 这 一 观点 已 写 现在 人 们 对 云 计算 的 定义 极为 相近 了 ， 所 以 我 们 把 McCarthy 
BA “BABS” 5 MapReduce 在 McCarthy 提出 时 并 没有 考虑 到 其 在 分 布 式 系统 和 大 数据 
上 会 有 如 此 大 的 应 用 前 景 ， 只 是 作为 一 种 函数 操作 来 定义 的 。 

2004 年 Google 公司 的 Dean 发 表 文 章 将 MapReduce 这 一 编程 模型 在 分 布 式 系统 中 的 应 用 
进行 了 介绍 , 从 此 MapRuduce 分 布 式 编程 模型 进入 了 人 们 的 视野 。 可 以 认为 分 布 式 MapReduce 
是 由 Google 公司 首先 提出 的 。Hadoop 跟 进 了 Google 的 这 一 思想 ， 可 以 认为 Hadoop 是 一 个 开 
源 版 本 的 Google 系统 , 正 是 由 于 Hadoop 的 跟 进 才 使 普通 用 户 得 以 开发 目 己 的 基于 MapReduce 
FERNS WRIA 


6.3.2 MapReduce 的 基本 工作 过 程 


MapReduce 是 一 种 处 理 大 数据 集 的 编程 模式 ， 它 借鉴 了 最 早出 现在 LISP 语言 和 其 他 函数 
语言 中 的 map 和 reduce 操作 , MapReduce 的 基本 过 程 为 : 用 户 通过 map 函数 处 理 key/value XY, 
从 而 产生 一 系列 不 同 的 key/value 对 ，reduce 国 数 将 key 值 相同 的 key/value 对 进行 合并 。 现 实 
中 的 很 多 处 理 任务 都 可 以 利用 这 一 模型 进行 描述 。 通 过 MapReduce 框架 能 实现 基于 数据 切 分 的 
目 动 并 行 计 算 ， 大 大 简化 了 分 布 式 编程 的 难度 ， 并 为 在 相对 廉价 的 商品 化 服务 器 集群 系统 上 实 
现 大 规模 的 数据 处 理 提 供 了 可 能 。 


MapReduce 的 过 程 其 实 非 常 简单 , 但 上 面 解释 看 上 去 却 较 为 星 深 , 我 们 用 一 个 实际 的 例子 
来 说 明 MapReduce 的 编程 模型 。 假 设 我 们 需要 对 一 个 文件 example.txt 中 出 现 的 单词 次 数 进行 
统计 ,这 就 是 著名 的 wordcount 例子 , 在 这 个 例子 中 MapReduce 的 编程 模型 可 以 进行 如 下 描述 。 

用 户 需 要 处 理 的 文件 example.txt 已 被 分 为 多 个 数据 片 存储 在 集群 系统 中 不 同 的 证 点 上 
了 ， 用户 先 使 用 一 个 Map 函数 一 Map(example.txt， 文 件 内 容 ), 在 这 个 Map 函数 中 Key 值 为 
example.txt, Key 通常 是 指 一 个 具有 唯一 值 的 标识 ，value 值 就 是 example.txt 文件 中 的 内 容 。 
Map 操作 程序 通常 会 被 分 布 到 存 有 文件 example.txt 数据 片段 的 节点 上 发 起 , 这 个 Map 操作 将 
产生 一 组 中 间 Key/value 对 (word, count) ， 这 里 的 word 代表 出 现在 文件 example.txt 片段 中 
的 任 一 个 单词 , 每 个 Map 操作 所 产生 的 Key/value 对 只 代表 example.txt 一 部 分 内 容 的 统计 值 。 
Reduce 函数 将 接收 集群 中 不 同 节 点 Map 函数 生成 的 中 间 Key/value 对 ， 并 将 Key 相同 的 
Key/value 对 进行 合并 ,在 这 个 例子 中 Reduce 函数 将 对 所 有 Key 值 相同 的 value 值 进行 求 和 合 
并 , 最 后 输出 的 Key/value 对 就 是 ( word, count), 其 中 count 就 是 这 个 单词 在 文件 example.txt 
中 出 现 的 总 的 次 数 。 

下 面 我 们 通过 一 个 简单 的 例子 来 讲解 MapReduce 的 基本 原理 。 

1. 任务 的 描述 

来 自 江苏 、 浙 江 、 山 东 三 个 省 的 9 所 高 校 联合 举 行 了 一 场 编程 大 赛 ,每 个 省 有 3 所 高 校 参 
加 ， 每 所 高 校 各 派 5 名 队员 参赛 ， 各 所 高 校 的 比赛 平均 成 绩 如 表 6.1 所 示 。 


表 6.1 原始 比赛 成 绩 


我 们 可 以 用 如 表 6.2 所 示 的 形式 来 表示 成 绩 ， 这 样 每 所 高 校 就 具备 了 所 属 省 份 和 平均 分 数 
这 两 个 属性 ， 即 < 高 校 名 称 : {所 属 省 份 ， 平 均 分 数 }>。 
表 6.2 ”增加 属性 信息 后 的 比赛 成 绩 


南京 大 学 : {江苏 省 ，90} 东南 大 学 : {江苏 省 ，93} 河 海 大 学 : {江苏 省 ，84} 
浙江 大 学 : {浙江 省 ，95} 浙江 工业 大 学 : {浙江 省 , 843 | 宁波 大 学 : {浙江 省 ，88} 
FRA: {山东 省 ;92)} 中 国 海 洋 大 学 : {山东 省 , 85} | 青岛 大 学 : {山东 省 ，87} 


统计 各 个 省 份 高 校 的 平均 分 数 时 , 高 校 的 名 称 并 不 是 很 重要 , 我 们 略 去 高 校 名 称 , 如 表 6.3 
所 示 fe) 
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表 6.3 ” 略 去 高 校 名 称 后 的 比赛 成 绩 


接 下 来 ， 我 们 对 各 个 省 份 的 高 校 的 成 绩 进行 汇总 ， 如 表 6.4 所 示 。 
表 6.4 各 省 比赛 成 绩 汇 总 


浙江 省 ，95、84、88 


江苏 省 ，90、93、84 山东 省 ，92、85、87 


计算 求 得 各 省 高 校 的 平均 值 如 表 6.5 所 示 。 
表 6.5 各 省 平均 成 绩 


山东 省 ，88 


以 上 为 计算 名 省 平均 成 绩 的 主要 步骤 ， 我 们 可 以 用 MapReduce 来 实现 ， 其 详细 步骤 如 下 。 

2. 任务 的 MapReduce 实现 

MapReduce 包含 Map、Shufle 和 Reduce 三 个 步骤 ， 其 中 Shuffle 由 Hadoop 自动 完成 ， 
Hadoop 的 使 用 者 可 以 无 需 了 解 并 行程 序 的 底层 实现 ， 只 需 关注 Map 和 Reduce 的 实现 。 

(1) Map Input: < 高 校 名 称 ，{ 所 属 省 份 ， 平 均 分 数 }> 

在 Map 部 分 ,我们 需要 输入 <Key,Value> 数 据 ， 这 里 Key 是 高 校 的 名 称 ，Value 是 属性 值 ， 
即 所 属 省 份 和 平均 分 数 ， 如 表 6.6 PTA. 


表 6.6 Map Input 数据 


Key: 南泉 大 学 Key: 东南 大 学 Key: BAS 
Value: { 江 苏 省 ，90} Value: {江苏 省 ，93} Value: {江苏 省 ，84} 
Key: 浙江 大 学 Key: 浙江 工业 大 学 Key: 宁波 大 学 
Value: {浙江 省 ，95)} Value: {浙江 省 ，84} Value: {HfIL4, 88} 


Key: 中 国 海洋 大 学 
Value: {山东 省 ，85} 


Key: 青岛 大 学 
Value: {山东 省 ，87} 


Key: 山东 大 学 
Value: {山东 省 ，92} 
(2 ) Map Output: < 所 属 省 份 ， 平 均 分 数 > 
对 所 属 省 份 平 均 分 数 进 行 重 分 组 ， 去 除 高 校 名 称 ， 将 所 属 省 份 变 为 Key， 平 均 分 数 变 为 
Value， 如 表 6.7 所 示 。 


表 6.7 Map Output 数据 


Key: 江苏 省 Key: 江苏 省 Key: 江苏 省 
Value: 90 Value: 93 Value: 84 
Key: 浙江 省 Key: 新 江 和 省 
Value: 95 Value: 88 
Key: 山东 省 Key: 山东 省 Key: 山东 省 
Value: 92 Value: 85 Value: 87 


(3) Shuffle Output: < 所 属 省 份 ，List( 平均 分 数 ) > 
Shuffle 由 Hadoop 自动 完成 ， 其 任务 是 实现 Map, Xf Key 进行 分 组 ， 用 户 可 以 获得 Value 
的 列表 ， 即 List<Value> ， 如 表 6.8 所 示 。 
表 6.8 Shuffle Output 数据 


Key: 浙江 省 
List<Value>: 95、84、88 


Key: 山东 省 
List<Value>: 92、85、87 


Key: 江苏 省 
List<Value>: 90、93、84 


(4) Reduce Input; < 所属 省 份 ，List (平均 分 数 ) > 

表 6.8 中 的 内 容 将 作为 Reduce 任务 的 输入 数据 ， 即 从 Shuffle 任务 中 获得 的 
( Key,List<Value> ) 。 

(5) Reduce Output: < 所 属 省 份 ， 平 均 分 数 > 

Reduce 任务 的 功能 是 完成 用 户 的 计算 逻辑 , , 这 里 的 任务 是 计算 每 个 省 份 的 高 校 学 生 的 比 


赛 平均 成 绩 ， 获 得 的 最 终结 果 如 表 6.9 ATA 


表 6.9 Reduce Output 数据 


6.3.3 LISP 中 的 MapReduce 


为 了 进一步 理解 MapReduce， 我 们 简单 介绍 最 早 使 用 Map 和 Reduce 的 LISP 语言 中 的 
Map 和 Reduce 操作 。 
下 面 的 LISP 语句 定义 的 这 个 Map 操作 是 将 向 量 (1 2 3 45 ) AIA (1098 7 6) 进行 相 乘 


这 个 Map 操作 对 应 于 向 量 到 向 量 的 映射 ， 两 个 向 量 按 乘积 关系 进行 映射 。 
下 面 的 LISP 语句 定义 的 这 个 Reduce 操作 是 将 向 量 (12345678910) 中 的 元 素 进行 求 
和 的 Reduce 操作 ,输出 结果 为 55。 
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(reduce #148 (1 2 3 a > 678 9 40) 7) om55 

这 个 Reduce 操作 对 应 于 向 量 的 约 简 ， 它 将 向 量 按 求 和 的 关系 约 简 为 一 个 值 。 

可 以 看 出 , 在 LISP 语言 中 Map 和 Reduce 只 是 作为 一 种 操作 定义 , 并 没有 体现 出 任何 的 分 
布 式 计算 的 特征 。 


6.3.4 MapReduce 的 特点 


MapReduce 主要 具有 以 下 几 个 特点 。 

(1) 需要 在 集群 条 件 下 使 用 。 

MapReduce 的 主要 作用 是 实现 对 大 数据 的 分 布 式 处 理 , 其 设计 时 的 基本 要 求 就 是 在 大 规 
模 集 群 条 件 下 的 ( 虽然 一 些 系统 可 以 在 单机 下 运行 , 但 这 种 条 件 下 只 具有 仿真 运行 的 意义 ) ， 
Google 作为 分 布 式 MapReduce 提出 者 , 它 本 身 就 是 世界 上 最 大 的 集群 系统 , 所 以 MapReduce 
天 然 需 要 在 集群 系统 下 运行 才能 有 效 。 

(2) 需要 有 相应 的 分 布 式 文件 系统 的 支持 。 

这 里 要 注意 的 是 ， 单 独 的 MapReduce 模式 并 不 具有 自动 的 并 行 性 能 ， 就 像 它 在 LISP 语言 
中 的 表现 一 样 , 它 只 有 与 相应 的 分 布 式 文件 系统 相 结合 才能 完美 地 体现 MapReduce 这 种 编程 杠 
染 的 优势 。 如 Google 系统 对 应 的 分 布 式 文件 系统 为 GFS，Hadoop 系统 对 应 的 分 布 式 文件 系统 
为 HDFS。MapReduce 能 实现 计算 的 自动 并 行 化 很 大 程度 上 是 由 于 分 布 式 文件 系统 在 对 文件 存 
储 时 就 实现 了 对 大 数据 文件 的 切 分 ， 这 种 并 行 方法 也 叫 数据 并 行 方 法 。 数 据 并 行 方 法 避免 了 对 
计算 任务 本 身 的 人 工 切 分 ， 降 低 了 编程 的 难度 ， 而 像 MPI 往往 需要 人 工 对 计算 任务 进行 切 分 ， 
因此 分 布 式 编程 难度 较 大 。 

(3) 可 以 在 商品 化 集群 条 件 下 运行 ， 不 需要 特别 的 硬件 支持 。 

和 高 性 能 计算 不 同 ， 基 于 MapReduce 的 系统 往往 不 需要 特别 的 硬件 支持 ， 按 Google 的 报 
道 ， 他 们 的 实验 系统 中 的 节点 就 是 基于 典型 的 双核 X86 的 系统 ， 配 置 2~4GB 的 内 存 ， 网 络 为 
百 粮 网 和 干 兆 网 构成 ， 存 储 设备 的 便宜 的 IDE 人 硬盘。 

(4) 假设 节点 的 失效 为 正常 情况 。 

传统 的 服务 器 通常 被 认为 是 稳定 的 ,但 在 服务 器 数量 巨大 或 采用 廉价 服务 的 条 件 下， 服务 
器 的 实效 将 变 得 常见 , 所 以 通常 基于 MapReduce 的 分 布 式 计算 系统 采用 了 存储 备份 、 计 算 备 份 
和 计算 迁移 等 策略 来 应 对 ， 从 而 实现 在 单 市 点 不 稳定 的 情况 下 保持 系统 整个 的 稳定 性 。 

(5 ) 适合 对 大 数据 进行 处 理 。 

由 于 基于 MapReduce 的 系统 并 行 化 是 通过 数据 切 分 实现 的 数据 并 行 ， 同 时 计算 程序 启动 
时 需要 向 各 节点 拷贝 计算 程序 ， 过 小 的 文件 在 这 种 模式 下 工作 反而 会 效率 低下 。Google 的 实验 
也 表明 一 个 由 150 秒 时 间 完 成 的 计算 任务 , 程序 启动 阶段 的 时 间 就 伦 了 60 秒 , 可 以 想象 ， 如果 
计算 任务 数据 过 小 ， 这 样 的 花费 是 不 值得 的 ， 同 时 对 过 小 的 数据 进行 切 分 也 无 必要 。 所 以 
MapReduce 更 适合 进行 大 数据 的 处 理 。 


一 一 


(6 ) 计算 向 存储 迁移 。 

传统 的 高 性 能 计算 数据 集中 存储 ,计算 时 数据 向 计算 节点 复制 , 而 基于 MapReduce 的 分 
布 式 系 统 在 数据 存储 时 就 实现 了 分 布 式 存储 ， 一 个 较 大 的 文件 会 被 切 分 成 大 量 较 小 的 文件 存 
储 于 不 同 的 节点 ， 系 统 调 度 机 制 在 启动 计算 时 会 将 计算 程序 尽 可 能 分 发 给 需要 处 理 的 数据 所 
在 的 节点 。 计 算 程 序 的 大 小 通常 会 比 数 据 文 件 小 的 多 ， 所 以 迁移 计算 的 网 络 代 价 要 比 迁 移 数 
据 小 的 多 。 

(7) MapReduce 的 计算 效率 会 受 最 慢 的 Map 任务 影响 。 

由 于 Reduce 操作 的 完成 需要 等 待 所 有 Map 任务 的 完成 , 所 以 如 果 Map 任务 中 有 一 个 任务 
出 现 了 延迟 ， 则 整个 MapReduce 操作 将 受 最 慢 的 Map 任务 的 影响 。 


6.4 实现 Map/Reduce 的 C 语言 实例 


Map/Reduce 操作 代表 了 一 大 类 的 数据 处 理 操作 方式 ， 为 了 让 大 家 对 Map/Reduce 的 工作 
过 程 有 一 个 直观 的 了 解 ， 下 面 的 程序 采用 C 语言 实现 了 一 个 简单 经 典 的 Map/Reduce tte, tt 
算 从 控制 台 输入 的 字符 串 中 单词 的 计数 ， 这 一 计算 过 程 都 是 在 同一 个 节点 上 完成 的 ， 并 未 实现 
计算 的 并 行 化 ， 历 史上 的 Lisp 语言 也 是 运行 在 单机 的 上 的 程序 ， 这 个 例子 的 主要 目的 是 让 大 家 
理解 这 一 操作 的 过 程 。 程 序 中 的 my_map0 和 my_reduce0 函 数 分 别 实现 了 对 字符 串 的 _ Map 和 
Reduce 操作 。 


程序 6.1 


SENSES HL aY>——doopeH {ito \Ht 


SS 


在 上 面 的 运行 实例 中 我 们 从 控制 台 输 入 字符 串 “this is map reduce hello map hello reduce” , 
程序 通过 Map 和 Reduce 过 程 对 字符 串 的 的 单词 出 现 的 频率 进行 统计 ， 并 输出 了 结果 ， 这 是 一 
个 典型 的 Map/Reduce 过 程 。 


6.5 or Hadoop 开发 环境 


本 节 使 用 三 个 Linux 虚拟 机 来 构建 Hadoop 集群 环境 ， 其 中 一 个 虚拟 机 作为 NameNode 
(Master 节点 ) ， 另 外 两 个 虚拟 机 作为 DataNode (Slave 节点 ) ， 如 图 6.5 所 示 。 在 3 个 节点 下 
3 个 虚拟 机 的 机 器 名 和 IP 地 址 信息 如 下 。 

虚拟 机 1: 主机 名 为 vm1，IP 为 192.168.122.101， 作 为 NameNode 使 用 ; 

虚拟 机 2: 主机 名 为 vm2，IP 为 192.168.122.102， 作 为 DataNode 使 用 ; 

虚拟 机 3: 主机 名 为 vrm3，IP 为 192.168.122.103， 作 为 DataNode 使 用 。 

vm1:192.168.122.101 | 


NameNode 
JobTracker 
NameNode NameNode 
TaskTracker TaskTracker 


vm2:192.168.122.102 vm3:192.168.122.103 


6.5 Hadoop 集群 配置 


6.5.1 相关 准备 工作 


(1) 准备 虚拟 机 的 操作 系统 。 

首先 准备 3 个 安装 了 操作 系统 的 虚拟 机 ,本 节 使 用 的 虚拟 机 上 安装 的 操作 系统 均 为 CentOS 
6.4 (64 位) ， 先 安装 一 机 虚拟 机 ， 然 后 Clone 两 个 出 男 外 两 个 虚拟 机 。 

CentOS 的 官方 网 站 : www.centos.org 

(2) 下 载 Hadoop 系统 。 

本 节 我 们 使 用 Hadoop 的 稳定 版 本 0.21.0。 

CentOS 的 官方 网 站 : hadoop.apache.org 

(3) 下 载 JDK。 

JDK 的 版 本 为 1.7.0_45 (64 位 ) 。 

下 载 地 址 : www.oracle.com/technetwork/java/javase/downloads 

(4) 新 建 用 户 “hadoop”。 


在 每 个 节点 上 使 用 useradd 指令 新 建 一 个 用 户 hadoop， 并 设置 密码 。 


(5 ) 永久 关闭 每 个 节点 的 防火 墙 (root 权 限 ) 。 


让 


(6) 配置 ssh 实现 Hadoop 节点 间 用 户 的 无 密码 访问 。 

Hadoop 需要 在 各 个 节点 间 进 行 信 息 传 递 ， 因 此 需要 实现 节点 间 的 无 密码 访问 ， 这 与 采用 
MPI 进行 并 行程 序 设计 相同 ， 否 则 系统 会 不 停 地 向 你 请 求 密码 验证 。 这 里 的 配置 在 各 个 节点 的 
hadoop 用 户 下 进行 。 配 置 过 程 与 MPI 部 分 的 配置 过 程 相关 ， 这 里 不 再 详 述 ， 配 置 完成 后 使 用 
ssh 指令 可 以 在 三 个 虚拟 机 之 间 实 现 无 密码 访问 。 


6.5.2 JDK 的 安装 配置 


Hadoop 是 采用 Java 编写 的 ， 每 个 虚拟 机 上 均 需 要 安装 Java 的 JDK, JDK 的 安装 配置 需 在 
root 用 户 下 进行 ， 具 体 步 又 如 下 。 

(1) 先 在 Sun 官方 网 站 下 载 JDK 软件 包 jdk—7045-linux—x64.tar.gz.o 
新 建 /java， 将 下 载 的 软件 包 进 1 行进 行 解压 


(3) 配置 Java 环境 变量 。 


SNA Hay —doopey fio 


4 ) 保存 了 Java 环境 变量 之 后 ， 在 命令 行 中 键入 如 下 命令 ， 使 环境 变量 生 


此 时 JDK fe} ath 接 下 来 即 可 进行 Hadoop 的 安装 和 配置 。 
序 6.2 


于 
营 


表明 JDK 已 成 功 安装 ， 并 能 成 功 编译 执行 Java 程序 。 


6.5.3 下载、 解压 Hadoop, Ad Hadoop 环境 


Hadoop 集群 中 每 个 节点 的 安装 、 配 置 是 相同 的 ,我们 可 以 现在 一 个 虚拟 机 上 进行 安装 、 


， 然 后 将 其 复制 到 其 他 节点 的 相应 目录 。 Sig fl 
将 hadoop 一 0.21.0.tar.gz 放置 在 vm1 的 /home/hadoop 目录 中 ， 用 hadoop 用 户 对 其 进行 解 


把 Hadoop Hc RR AS DE “/etc/profile” HH, 在 文件 的 末尾 添 下 面 的 代码 , 每 个 节点 均 
需要 进行 此 步 配置 。 


保存 了 Hadoop 环境 变量 之 后 ， 在 命令 行 行踪 入 如 下 命令 ， 使 境 灾 晶 生 允 


6.5.4 ”修改 Hadoop 配置 文件 
Hadoop 的 配置 文件 存 于 conf 文件 夹 中 ,我 们 需要 对 该 文件 夹 中 以 下 文件 进行 修改 : 


hadoop—env.sh、 core—site.xml, mapred—site.xml, masters, slaves. 

(1) 修改 hadoop-—env.sh 文件 。 

Hadoop 的 Java 环境 变量 在 hadoop—env.sh 中 进行 设置 。 使 用 vim 打开 hadoop—env.sh SH, 
找到 Java 环境 变量 的 设置 位 置 ， 将 其 改 为 JDK 的 安装 地 址 ， 保 存 并 退出 。 


(2) 修改 core—site.xml 文件 。 
core—site.xml 用 于 设置 Hadoop 集群 的 HDFS 的 地 址 和 端口 号 ， 以 及 用 于 保存 HDFS 信息 


的 tmp 文件 夹 ， 对 HDFS 进行 重新 格式 化 的 时 候 先行 删除 tmp 中 的 文件 。 
新 建 tmp 文件 夹 : 


也 使 用 用 vim #1 im 打 ST ie aa nat 文件 ， : 让 So </ pte OF . 


其 中 的 IP 地 址 需 配置 为 集群 的 NameNode ( Master ) 节点 的 Ip , 这 里 “199.168.122.101” 有 
(3 ) 修改 mapred—site.xml 文件 。 
在 mapred-site.xml 文件 的 在 <configuration> </configuration> 之 间 添 加 以 下 代码 ， 配 置 


JobTracker 的 主机 名 和 端口 。 
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使 用 vim 打开 masters 文件 ， 写 入 NameNode ( Master) 节点 的 主机 名 ， 这 里 为 vm1， 保 存 
并 退出 。 


使 用 vim 打开 slaves 文件 ， 写 入 DataNode (Slaver ) 节点 的 主机 名 ， 这 里 为 vm1、vm2， 保 
存 并 退出 。 


6.5.5 “将 配置 好 的 Hadoop 文件 复制 到 其 他 节点 


到 了 这 里 , 我 们 已 经 安装 、 配 置 了 一 个 Hadoop 节点 ，Hadoop 集群 中 每 个 节点 的 安装 、 配 
置 是 相同 的 ， 这 里 需要 将 vml 上 的 Hadoop 文件 夹 整体 复制 到 其 他 的 节点 ， 执 行 以 下 指令 : 


和 起 化 NaimeNiaae 


| Hadoop 之 前 ， 需 要 执行 以 下 指令 ， 对 Hadoop 的 分 布 式 文件 进行 初始 化 : 


”顺利 执行 此 格式 化 指令 后 ， 会 显示 


6.5.6 启动、 停止 Hadoop 


进入 Ahomrehadoopyhadoop-0.21 0biny， 可 以 看 到 文件 中 有 很 多 的 启动 肝 本 。 


执行 start—all.sh 脚本 ， 启 动 Hadoop。 


执行 之 后 ， 可 以 看 到 如 下 


“从 中 我 们 可 以 看 本 此 脚本 启动 了 NameNode, Soc 两 个 = 
以 及 两 个 TaskTracker。 
NameNode(192.168.122.101) 上 输入 jps 今 令 查 看 启动 进程 情况 : | 


Hadoop 的 停止 命令 如 下 : 


6.5.7 ”在 Hadoop 系统 上 运行 测试 程序 WordCount 


(1) 先 在 Hadoop 用 户 当 前 目录 下 新 建文 件 夹 WordCount， 在 其 中 建立 两 个 测试 文件 
filel.txt，filel.txt。 目 行 在 两 个 文件 中 填写 内 容 。 


|| _ 


SNS HLaty—doopey  fow 


file1.txt 文件 内 容 为 


file2.txt 文件 内 容 为 a 


MME BAP 


练习 题 


二 


BK “= Se" 是 ; : é 

简 述 GFS 的 工作 过 程 。 

简 述 HDFS 的 分 块 策略 。 

简 述 搭建 Hadoop 开发 环境 的 流程 ， 并 动手 搭建 3 个 市 点 的 Hadoop 集群 。 


SSN HY —doopey ftom 


(4) Apache Drill: Google 大 数据 分 析 系 统 Dremel 的 开源 版 本 ， 可 在 10000 台 节 点 上 处 
理 PB 级 的 数据 ， 常 用 于 处 理 MapReduce 产生 的 数据 ， 加 速 Hadoop 的 查询 速度 ， 具 有 超 低 
的 延 时 。 

(5) Rapid Miner: 用 于 数据 挖 据 、 机 器 学 习 、 商 业 预 测 分 析 的 开源 计算 平台 。 

(6) Pentaho: 以 工作 流 为 核心 、 强 调 面向 解决 方案 的 商务 智能 软件 开源 项 目 。 

计算 密集 型 平台 需要 尽量 减少 数据 的 移动 , 大 多 数 的 超级 计算 将 数据 存储 在 数据 仓库 或 者 
服务 器 ， 在 计算 的 时 候 将 数据 传输 到 计算 节点 ， 这 样 的 方式 数据 传输 压力 大 。 数 据 密 集 型 计算 
系统 通常 使 用 分 布 式 文件 系统 ， 将 数据 存储 在 集群 节点 中 ， 在 运算 的 时 候 将 计算 任务 发 送 到 需 
要 处 理 的 数据 所 在 的 节点 ， 数 据 传输 压力 远 低 于 超级 计算 模式 。 

大 量 数据 节点 组 成 的 计算 集群 中 软 硬 件 故障 、 通 信 故 障 是 经 党 出 现 的 ， 系 统 在 软 硬 件 平台 
设计 的 时 候 需 要 考虑 系统 的 稳定 性 和 可 用 性 。 


7.1 HPCC 简介 


当今 ， 许 多 组 织 和 企业 都 对 数据 密集 型 计算 有 着 巨大 的 需求 。2011 年 ，LexisNexis 公司 开 
源 了 其 高 性 能 计算 分 析 平 台 HPCC 系统 ， 其 C++ 编写 的 天 然 速度 优势 ， 可 靠 性 与 强力 的 错误 
恢复 机 制 , 强大 易 用 的 ECL 编程 语言 模式 等 新 特性 给 我 们 解决 大 数据 处 理 问题 带 来 了 新 的 思路 
与 方法 。Hadoop 系统 在 文件 分 割 时 是 基于 数据 块 的 而 HPPC 在 文件 分 割 时 是 基于 记录 的 ， 相 
比 Hadoop 系统 HPCC 为 用 户 更 近 一 步 地 隐藏 了 分 布 式 计 算 的 细节 ， 简 化 了 并 行程 序 的 编写 难 
RE, HPCC 的 社区 版 的 开源 为 分 布 式 大 数据 处 理 系统 提供 了 一 个 新 的 选择 , 同时 由 于 HPCC 由 
专门 的 公司 在 支持 ， 其 安全 性 和 稳定 性 能 得 到 保证 。 

LexisNexis 是 世界 最 大 出 版 商 Elsevier 集团 的 子 公 司 ， 其 提供 的 LexisNexis 数据 库 是 著 
名 的 数据 库 ， 为 全 球 众 多 政府 部 门 、 金 融 公 司 、 法 务 部 门 、 高 科技 公司 等 所 使 用 ， 该 数据 
库 连 接 至 40 亿 个 文件 、11439 个 数据 库 以 及 36000 个 来 源 ， 资 料 每 日 更 新 。 如 此 规模 巨大 
的 数据 量 对 LexisNexis 的 服务 系统 提出 了 挑战 。 为 此 LexisNexis 开发 了 HPCC 高 性 能 集群 
计算 平台 , 来 解决 海量 数据 的 处 理 与 分 析 问 题 。 面 对 日 益 增 长 的 大 数据 应 用 需求 , LexisNexis 
公司 于 2011 年 推出 了 HPCC 的 社区 开源 版 本 ， 数 十 年 来 HPCC 稳定 、 高 效 的 特性 保证 了 
LexisNexis 公司 数据 库 正 常 的 服务 功能 , 开源 版 本 的 推出 使 其 成 为 数据 密集 型 计算 的 重要 平 
台 。 同 年 ， 亚 马 逊 公司 宣布 在 其 云 计算 平台 上 使 用 HPCC 系统 ， 这 无 疑 为 HPCC 的 发 展 注 
入 了 强大 的 动力 。 

HPCC 系统 相对 于 现今 的 各 种 大 数据 解决 方案 有 以 下 优点 : 

(1) 强大 灵活 的 ECL 语言， 显著 提升 了 程序 员 编 程 的 效率 ; 

(2) HPCC 系统 提供 的 Roxie 集群 提供 了 高 效 的 在 线 查询 和 分 析 服 务 ; 

(3) ECL 程序 首先 编译 为 优化 的 C++， 高 速 性 能 得 到 保证 ; 

(4) 高 效 的 错误 恢复 和 元 余 备 份 机 制 ; 

(5) 稳定 和 可 靠 的 系统 ; 


| 
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(6 ) 相对 其 他 平台 ， 在 较 低 的 系统 消耗 上 实现 了 更 高 的 性 能 。 

HPCC 在 集群 计算 方面 具备 非常 强大 的 性 能 ，“Terabyte Sort” 是 著名 的 计算 机 平台 性 
能 测试 的 项 目 ( http://sortbenchmark.org ) ， 测 试 的 内 容 是 对 由 10000000 条 100 个 字 节 的 记 
录 构 成 的 数据 集合 进行 排序 。HPCC 的 官方 文件 表明 ，1460 台 部 署 了 Hadoop 的 集群 花费 
62 秒 完成 1TB 数据 排序 ， 而 400 台 部 署 了 HPCC 系统 的 集群 仅 花费 102 秒 即 完成 1TB 数 
据 排 序 。 

高 性 能 计算 目前 可 以 分 为 两 类 : 一 类 是 面向 计算 的 高 性 能 计算 ; 男 一 类 是 面向 数据 的 
高 性 能 计算 。HPCC 等 大 数据 系统 就 是 面向 数据 的 高 性 能 计算 。HPCC 集群 和 高 性 能 计算 
中 的 Beowulf 集群 看 上 去 非常 相似 , 但 历史 上 Beowulf 集群 的 应 用 目标 主要 是 针对 计算 ， 而 
HPCC 集群 的 设计 目的 的 面向 海量 数据 处 理 。 运行 上 Beowulf 集 群 上 的 软件 主要 是 MPI 等 ， 
这 类 软件 需要 用 户 上 自己 操作 集群 中 的 每 一 个 节点 ，HPCC 由 于 采用 了 数据 并 行 的 方式 ， 在 
分 布 式 文件 系统 的 支持 下 可 以 将 并 行 处 理 进程 向 用 户 隐藏 ， 从 而 大 大 降低 了 分 布 式 程序 设 
计 的 复杂 性 。 

HPCC 系统 分 为 商业 版 和 社区 版 。 在 2011 年 以 前 ，HPCC 系统 是 一 个 商业 系统 ， 拥 有 稳 
定 的 用 户 群 体 ， 随 着 云 计 算 、 移 动 互 联网 的 发 展 ， 大 数据 应 用 需求 激增 ， 开 源 的 大 数据 处 理 平 
台 Hadoop 的 普及 给 HPCC 商业 版 的 发 展 带 来 不 小 的 压力 ，LexisNexis 公司 于 2011 年 推出 了 开 
放 源 码 的 HPCC 社区 版 ， 本 章 的 内 容 均 是 基于 HPCC 社区 版 完成 。 社 区 版 与 商业 版 在 大 多 数 
模块 上 是 完全 相同 的 , 社区 版 能 实现 绝 大 多 数 的 HPCC THRE, HPCC 社区 版 与 商业 版 的 主要 区 
别 如 表 7.1 所 示 。 


表 7.1 HPCC 社区 版 与 商业 版 的 区 别 


ae oe 根据 安装 节点 数 收费 , 开放 源 代码 , 适 
sg? 开放 源 代码， 可 以 获取 入 区 支 | 合 需要 数据 密集 型 计算 平台 的 企业 级 


适合 用 于 非 关 键 型 的 应 用 用 户 


ECL 库 ECL 通用 库 和 附加 模块 
nd Naive/RDMA 


el Ee 


商业 咨询 ，Bug 定位 ， 商 业 培 训 


概述 


开源 社区 、 在 线 文档 帮助 ， 免 费 学 习 


MF 视频 


7.2 HPCC 的 系统 架构 


HPCC 系统 从 总 体 物理 上 可 以 看 作 在 同一 个 集群 上 部 着 了 Thor ( 数据 加 工 处 理 平台 ) 和 
Roxie( 数据 查询 、 分 析 和 和 数据 仓库 ) 的 集群 计算 系统 ， 并 包含 ECL 中 间 件 、 外 部 通信 层 、 客 
户 端 接口 和 辅助 组 件 ， 系 统 染 构 如 图 7.1 所 示 。 


客户 端 接口 


28 Fig HF ARS 


Build ECL Direct WS-ECL ECL Watch 
ety See ia SOAP) || (via browser) || (via browser) 


Network 


Sipe Management 
Watch Servi 
DFU Plus ATM Plus ECL Plus (via browser) pede ae 
(syslog) 
a Et 3 A a ee ae 


Enterprise Service Platform (ESP) 
通过 HTTP 或 者 SOAP 接 口 通 向 ECL 执 行 层 


ECL Watch ECL Driect 
Service Service 


ECL 中 间 件 层 
ECL Attribute ae 
Repository Job Server 


ECL Agents) 


Data Delivery 
Engine 
ire 超级 计算 层 
数据 精炼 快速 数据 传递 引擎 


7.1 HPCC 系统 架构 


DFU 
Distributed File 


Job Server 


Thor 集群 和 Roxie 集群 是 HPCC 系统 的 核心 部 件 ， 这 两 个 部 件 可 以 根据 并 行 处 理 任务 进 
行 独立 优化 。Thor 集群 的 任务 可 以 独立 执行 任务 , 不 需要 部 署 Roxie 集群 ; 但 要 运行 Roxie 集 
群 上 的 任务 必须 首先 部 署 Thor 集群 ， 为 其 构建 分 布 式 索引 文件 。 其 中 ESP 服务 器 (Enterprise 
Service Platform ) 提供 与 用 户 交互 的 网 络 连接 ， 后 面 用 到 的 ECL Watch 和 WS ECL Service 都 属 
于 ESP 服务 。 
HPCC 的 系统 服务 器 包含 ECL 服务 器 、Dali 服务 器 、Sasha 服务 器 、DEFU 服务 器 和 ESP 服 
务 器 ， 这 些 服务 器 为 Thor、Roxie 集群 和 外 部 建立 接口 ， 并 为 HPCC 环境 提供 服务 支持 。 
@ ECL 服务 器 包含 ECL 编译 俐 和 执行 代码 生成 颖 ， 是 Thor 集群 的 任务 服务 器 。 
@ Dali 服务 器 的 功能 是 数据 仓库 ,主要 用 于 管理 工作 单元 数据 ,维护 DFU 的 逻辑 文件 目录 
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信息 ， 配 置 HPCC 环境 ,维护 系统 消 奶 队列 等 。 
@ Sasha 服务 器 的 主要 功能 是 尽量 减轻 Dali 服务 器 的 压力 和 资源 利用 率 。 
@ DFU 服务 器 用 于 向 Thor 集群 的 分 布 式 文件 系统 DFS 发 送 数 据 和 回收 数据 。 
@ ESP 服务 器 是 外 部 客户 端 链接 到 集群 的 接口 。 
同时 HPCC 平台 为 数据 分 析 人 员 、 编程 人 员 、 管理 人 员 和 终端 用 户 提供 了 一 系列 开发 工具 
和 组 件 ， 包 括 集成 开发 环境 QueryBuilder、 集 群 监控 管理 工具 ECL Watch 等 。 
HPCC 简化 的 总 体系 统 结构 如 图 7.2 所 示 ， 图 中 表明 HPCC 集群 在 ECL 语言 的 基础 上 利 
用 Thor 集群 对 大 数据 进行 分 析 处 理 ， 而 后 利用 Roxie 集群 实现 数据 的 高 效 发 布 。 
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7.2 HPCC 系统 结构 简 图 


1. Thor 集群 

Thor 集群 是 HPCC 系统 的 基础 部 件 ， 用 于 对 待 处 理 的 原始 数据 进行 加 工 、 精 炼 ， 例 如 : 
对 原始 数据 进行 数据 清洗 ， 进 行 数据 集 的 ETL 操作 ( 提取、 转换 、 加 载 ) ， 为 高 性 能 结构 化 查 
询 和 数据 仓库 应 用 创建 核心 数据 和 索引 等 。Thor 集群 在 功能 、 运 行 环境 、 文 件 系 统 等 方面 与 
Hadoop 相似 。Thor 集群 可 认 看 作 是 一 种 基于 记录 的 Hadoop 系统 。 

在 系统 结构 上 Thor 集群 与 Hadoop 相同 采用 主 从 模式 ， 每 个 集群 由 一 个 Master 节点 和 多 
个 Slave 节点 组 成 ， 其 他 的 组 件 用 于 构成 HPCC 集群 环境 ， 为 ECL 程序 执行 提供 并 行 环境 。 
Master 节点 的 主要 作用 是 分 发 由 ECL Server 和 ECL 仓库 编译 的 程序 到 各 个 Slave 节点 ,并 监控 、 
协调 程序 在 各 个 Slave 节点 上 的 执行 ( 类 似 于 Hadoop 中 的 Job Tracker) 。 在 一 个 HPCC 系统 
中 ， 可 以 建立 多 个 Thor 集群 。 

Thor 集群 每 一 个 Slave 节点 也 作为 集群 分 布 式 文件 系统 的 数据 节点 存在 ， 与 Map/Reduce 
集群 所 用 的 块 格式 不 同 ，Thor 中 的 数据 是 面向 记录 的 , 数据 记录 既 可 以 是 长 度 固 定 的 内 容 也 可 
以 是 其 他 的 固定 格式 数据 。Thor 在 本 地 节点 和 集群 内 其 他 节点 都 提供 了 备份 副本 , 每 当 有 新 数 
据 添 加 ,都 会 自动 进行 备份 。Thor 集群 上 执行 的 任务 也 可 以 通过 分 布 式 文件 系统 从 其 他 集群 导 
入 文件 。Thor 集群 中 的 分 布 式 文件 系统 是 HPCC 实现 大 数据 处 理 的 关键 ， 通 过 数据 在 系统 中 
预先 切 分 并 别 存 储 于 各 个 子 节点 为 后 面 对 数 据 的 并 行 化 处 理 提 供 方 便 。 正 是 利用 分 布 式 文件 系 
统 HPCC 可 以 向 开发 者 隐藏 并 行 数据 处 理 的 复杂 性 实现 算法 的 目 动 并 行 化 , 这 是 当前 大 数据 系 
统 架 构 采 用 的 主要 方法 。 


2. Roxie 集群 

作为 数据 快速 交付 引擎 的 Roxie(Rapid Online XML Inquiry Engine) 是 一 个 高 性 能 的 结构 化 
查询 和 分 析 平 台 ， 支 持 数 高 并 发 数据 请 求 ， 快 速 啊 应 请 求 。 

Roxie 提供 了 高 性 能 的 在 线 结构 化 数据 查询 和 分 析 的 功能 和 数据 仓库 的 功能 。 其 作用 类 似 
Hadoop 中 的 Hive 和 HBase， 但 Roxie 的 效率 更 高 。Roxie 集群 的 每 个 节点 都 同时 运行 着 Srver 
进程 和 Worker 进程 。Server 进程 主要 负责 等 竺 接收 查询 请 求 ， 并 调度 执行 请 求 。Roxie 集群 有 
目 己 的 分 布 式 文件 系统 ， 以 索引 为 基础 ， 使 用 分 布 式 B+ 树 索引 文件 。Roxie 集群 提供 了 强大 的 
错误 恢复 和 元 余 备 份 功能 ， 在 两 个 或 更 多 的 节点 上 进行 数据 了 见 余 ， 能 在 节点 失效 的 情况 下 继续 
运行 。 

Roxie 集群 的 每 个 节点 都 有 Server 进程 和 Worker 进程 。Server 进程 等 待 外 部 查询 请 求 , 根 
据 查 询 请 求 确 定 需 要 的 行 虑 。Roxie 集群 中 的 辅助 组 件 节点 是 一 台 ESP 服务 器 ， 外 部 终端 通过 
ESP 服务 器 与 集群 进行 连接 ， 其 余 组 件 与 为 Roxie 集群 创建 分 布 式 索引 文件 的 Thor 集群 共享 。 

在 HPCC 编程 环境 中 , Thor 和 Roxie 这 两 种 并 行 数据 处 理 平台 需要 各 自 优 化 并 相互 配合 
HPCC 平台 需要 根据 系统 性 能 要 求 和 用 户 的 需求 来 决定 使 用 两 种 平台 各 自 的 节点 数 ， 以 获取 最 
优 性 能 。 

Hadoop 平台 在 进行 大 数据 处 理 时 需要 同时 部 署 HBase、Hive、Pig 等 系统 ， 这 些 系 统 的 目 
标 和 需求 并 不 相同 ， 不 能 完全 符合 Map/Reduce 的 模式 。HPCC 平台 集成 了 Thor 和 Roxie， 可 
以 根据 实际 需求 配置 Thor 和 Roxie 集群 ， 比 Hadoop 具有 更 大 的 灵活 性 。 通 常 Thor 和 Roxie 
集群 在 物理 上 是 同一 个 集群 ， 只 是 完成 的 任务 不 同 ， 它 们 基于 的 底层 分 布 式 文件 系统 是 同一 个 
文件 系统 。 


7.3 HPCC 平台 数据 检索 任务 的 执行 过 程 


HPCC 的 平台 上 的 数据 检索 任务 在 Thor 集群 和 Roxie 集群 上 运行 ， 执 行 过程 包 含 导 入 原 
始 数据 、 数 据 切 分 与 分 发 、ETL 处 理 、Roxie 集群 发 布 ， 如 图 7.3 所 示 。 
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7.3 HPCC 数据 检索 任务 的 执行 流程 
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1. 加 载 原始 数据 

将 存储 在 HPCC 平台 以 外 的 待 处 理 数据 加 载 到 Thor 集群 ， 存 放 位 置 为 Landing Zone, FJ 
在 HPCC 配置 中 进行 查询 。 常 用 的 数据 加 载 方式 有 两 种 ， 一 种 是 登录 ECL Watch， 通 过 Web 
方式 将 数据 导入 Thor 集群 ， 另 一 种 是 直接 使 用 WinSCP 等 文件 传输 工具 将 输入 传 入 相应 节点 
的 文件 夹 。 

2. 切 分 、 分 发 待 处 理 的 数据 

这 个 操作 对 应 于 图 7.3 中 的 Spray, Spray 操作 将 Landing Zone 中 的 数据 进行 均匀 切 分 ， 发 
送 到 Thor 集群 的 计算 节点 。 切 分 的 时 候 根据 文件 的 逻辑 记录 结构 进行 切 分 ， 保 证 逻辑 记录 的 
完整 性 ， 不 被 切 分 到 多 个 节点 上 。 这 个 操作 由 DFU 服务 器 控制 ， 将 数据 切 分 并 分 发 到 各 个 存 
储 节 点 ， 切 分 后 的 文件 形成 一 个 逻辑 文件 ， 供 ECL 编程 时 使 用 。 

在 数据 的 处 理 过 程 中 ， 使 用 ECL 编程 语言 可 以 将 DFS 中 的 文件 进行 重新 分 配 。 例 如 ， 可 
以 将 匹配 某 一 个 键 值 的 数据 分 配 到 一 个 节点 上 ， 这 样 对 这 些 数据 的 操作 处 理 就 在 一 个 节点 上 进 
行 ， 避 免 节 点 间 的 数据 移动 ， 达 到 数据 并 行 操作 、 性 能 最 优 。 

由 于 HPCC 中 分 布 式 文件 系统 是 与 系统 紧密 结合 的 ,所 以 系统 能 有 效 地 识别 分 布 在 不 同 节 
点 上 被 切 分 后 的 文件 ， 这 样 系统 在 进行 数据 处 理 时 就 能 同时 在 多 个 节点 发 起 ， 从 而 实现 对 大 数 
据 的 分 布 式 处 理 。 同 时 系统 所 生成 的 索引 文件 在 系统 中 也 是 以 分 布 式 的 形式 存放 在 系统 中 的 不 
同 节点 。 

3. 分 发 后 原始 数据 的 ETL 处 理 

对 分 发 后 的 原始 数据 ETL 是 Thor 集群 的 典型 应 用 ， 包 含 Extract 操作 、Transform 操作 和 
Load 操作 。Extract 操作 包含 源 数 据 映射 、 数 据 清 洗 、 数 据 分 析 统 计 等 操作 ; Transform 操作 是 
对 数据 集 的 肖 规 操作 ， 如 数据 记录 的 合并 或 拆 分 ， 数据 集 内 容 的 更 新 ， 格 式 的 变化 等 ;Load 操 
作 的 主要 作用 是 为 数据 仓库 或 一 些 独立 的 查询 平台 建立 索引 ， 索 引 建立 后 会 被 加 载 到 Roxie 平 
台 以 文 持 在 线 查 询 。 

4. 向 Roxie 集群 发 布 | 

当 一 个 查询 被 部 署 到 Roxie 集群 ， 相 关 的 支撑 数据 、 索 引文 件 也 被 加 载 到 Roxie 分 布 式 索 
引文 件 系统 。 在 HPCC 系统 中 ， 这 个 文件 系统 与 Thor 的 DFS 分 布 式 文件 系统 是 相互 独立 的 。 
在 HPCC 环境 配置 中 ，Roxie 集群 的 数据 会 在 多 个 节点 上 进行 备份 ， 集 群 中 的 某 个 节点 出 现 故 
障 不 会 影响 系统 的 运行 。Roxie 集群 查询 请 求 的 负载 均衡 一 般 由 外 部 负载 均衡 通信 设备 负责 。 
Roxie 集群 的 规模 由 查询 需求 及 其 响应 时 间 要 求 ， 规 模 一 般 小 于 Thor 集群 。Roxie 查询 可 以 通 
过 Web 应 用 发 起 ， 每 个 Roxie 查询 需要 部 署 一 个 ECL 查询 程序 。 


7.4 HPCC 的 安装 部 署 


HPCC 系统 集群 的 安装 和 配置 不 同 于 其 他 并 行 环 境 , 它 提供 了 一 系列 的 脚本 和 可 视 化 Web 
界面 来 辅助 HPCC 系统 集群 的 部 署 。 在 HPCC 系统 的 部 署 中 ， 我 们 首先 要 在 集群 的 节点 间 配 
置 ssh 无 密码 访问 ,然后 在 各 个 节点 上 安装 HPCC 文件 。 之 后 启动 HPCC 系统 提供 的 集群 配置 


服务 ， 进 行 HPCC 系统 的 集群 配置 。 

在 本 次 安装 过 程 中 ， 我 们 选用 5 台 安 装 了 64 位 CentOS 6.4 的 服务 器 作为 集群 节点 ， 这 些 
节点 的 IP 地 址 分 别 为 222.18.159.122~222.18.159.126。HPCC 系统 还 提供 了 进行 集群 环境 配置 
的 可 视 化 Web 接口 8015， 查 看 集群 整体 情况 的 8010 HA. HPCC 系统 的 部 着 不 像 Hadoop 等 
需要 配置 环境 变量 等 ， 而 是 提供 了 一 个 可 执行 的 安装 文件 ， 我 们 从 官方 网 站 下 载 后 ， 可 以 进行 
直接 安装 。 

安装 步骤 如 下 所 示 。 

1. 配置 ssh 无 密码 访问 

在 本 书 第 5 章 的 并 行 环境 配置 过 程 中 ， 我 们 已 经 配置 好 了 ssh 无 密码 登录 环境 ， 这 里 就 不 
详细 介绍 了 。 

2. 在 每 个 节点 上 分 别 安装 HPCC 文件 并 查看 运行 情况 

(1) 执行 安装 命令 。 

HPCC 官方 网 站 提供 了 两 种 类 型 的 HPCC 安装 文件 供用 户 下 载 , 插件 版 和 不 带 插 件 版 , 插 
件 版 提供 了 Java. Python 等 语言 的 支持 ， 两 种 版 本 的 安装 指令 有 所 不 同 ， 这 里 我 们 采用 插件 版 
的 HPCC 系统 进行 安装 。 

在 CentOS/RedHat 系统 上 ， 搬 件 版 和 不 带 插 版 件 的 HPCC 系统 安装 命令 分 别 如 下 : 


(2) 启动 HPCC 系统 服务 : 


(3) 检查 启动 的 HPCC 服务 情况 : 


(4) 停止 HPCC 服务 : 


安装 成 功 后 ，HPCC 会 将 文件 安装 到 默认 的 路 径 。 其 中 默认 的 安装 目录 为 
/opt/HPCCSystems/ 目 录 ， 里 边 存 放 了 HPCC 系统 的 核心 文件 和 执行 脚本 。 集 群 配置 文件 存放 
在 /etc/HPCCSystems/ 目 录 下 ; 日 志 信息 等 存放 在 /varlib/HPCCSystems/ 目 录 中 。 

3. 配置 集群 环境 

(1) 停止 HPCC 系统 服务 。 

启动 配置 服务 前 ， 必 须 停 止 全 部 节点 上 的 HPCC 服务 ， 否 则 配置 服务 无 法 启动 。HPCC 
系统 提供 了 脚本 用 来 启动 或 停止 集群 中 所 有 节点 上 的 服务 和 对 所 有 节点 的 服务 启动 状态 进行 
检测 。 

停止 集群 所 有 节点 的 服务 : 
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erry ) 启动 配置 服务 。 

HPCC 系统 提供 了 一 个 configmer 脚本 ， 用 于 局 动 集群 环境 配置 的 Web 界面 接口 。 我 们 通 
过 提供 的 Web 页 面 进行 集群 环境 配置 。 这 个 脚本 位 于 /opt/HPCCSystems/sbin/ 目 录 中 ， 我 们 
执行 这 个 脚本 启动 配置 接口 : 
sudo /opt/HPCC Systems/sbin/configmgr coe 

(3) 启动 Web 页 面 配 置 。 

通过 第 二 步 的 启动 配置 服务 ,我 们 启动 了 端口 为 8015 的 Web 页 面 的 化 集群 环境 配置 界面 。 
通过 界面 我 们 可 以 部 闭 Thor 集群 和 Roxie A, BSA HPCC 系统 的 一 些 服 务 在 不 同 的 节点 。 

在 这 里 ,我们 启动 浏览 器 登录 http://222.18.159.122:8015 配置 集群 ，222.18.159.122 为 启动 
configmer 服务 的 节点 IP. 

(4) 创建 自己 的 集群 配置 文件 。 

在 页 面 中 提供 了 不 同 的 配置 文件 创建 方式 ， 我们 选择 带 有 系统 指引 的 创建 方式 ( Generate 
new environment using wizard ) ， 同 时 在 后 边 空 白 处 填写 创建 配置 文件 的 名 称 , 配置 文件 的 名 称 


为 new.xml， 如 图 7.4 所 示 。 


CO Summary View 


© Advanced View 


@ Generate new environment using wizard 


© Create blank environment Enter flename> 


7.4 开始 HPCC 系统 配置 


(5) 配置 集群 的 网 络 信息 。 

集群 配置 需要 提供 集群 的 网 络 信息 , 配置 文件 会 将 Thor 集群 和 Roxie 集群 以 及 其 他 服务 ， 
按照 用 户 需求 分 配 到 集群 中 的 各 个 节点 上 去 。 

我 们 首先 将 集群 中 各 节点 的 IP 填 入 IP 列表 中 。 如果 集 群 中 各 节点 的 人 P 地 址 连续 则 可 以 用 
如 222.18.159.122-126 这 样 的 方式 填写 ; 如 果 IP 地 址 不 连续 ， 则 以 节点 IP 之 间 可 以 用 “;” 相 
Ba, 如 192.168.1.101;192.168.1.106 。 在 本 实验 中 , 集群 各 节点 的 IP 区域 是 222.18.159.122-126, 
如 图 7.5 所 示 。 


Environment setup 


Welcome to wizard mode! 
Define IP Addresses for the environment being configured. Choose manual 


entry to enter IP addresses or auto discovery to acquire the list of IP 
Addresses via auto discovery script. Manual entry format-X XX.X: X_X_X_X-XXX; 


@ Manual Entry “> Auto Discovery 


图 7.5 设置 IP 地 址 


(6) 配置 Thor 集群 和 Roxie 集群 的 节点 数 。 

Thor 集群 和 Roxie 集群 是 HPCC 系统 的 计算 数据 处 理 集群 和 数据 查询 分 析 集 群 。 我 们 可 
以 根据 集群 中 节点 的 数目 和 具体 业务 对 HPCC 系统 的 需求 ， 对 Thor 集群 和 Roxie 集群 进行 个 
性 化 的 配置 。 

在 本 实验 中 ,我 们 选用 1 个 节点 作为 support 节点 ,4 个 节点 作为 Thor 集 群 的 从 节点 和 Roxie 
集群 节点 ， 如 图 7.6 所 示 ，Thor 集群 的 Master 节点 会 被 自动 分 配 到 support 节点 。 


Environment setup 


Enter number of nodes for Roxie and Thor clusters. No Roxie/Thor cluster will 
be generated for zero (0) number of nodes. 


Number of nodes for Roxie cluster (a 


Number of slave nodes for Thor cluster 


{A Thor Master will be added to the cluster and assigned to 
a support node) 


Number of Thor slaves per node (default 1) (ome 
Enable Roxie on demand Em 
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(7 ) 检查 配置 结果 。 

Thor 集群 和 Roxie 集群 配置 完成 后 , 系统 会 目 动 化 地 分 配 各 个 节点 , 并 将 相应 的 服务 分 配 
到 各 个 节点 上 ， 如 选 定 222.18.159.122 节点 作为 sapport WA, IA Thor 集群 的 Master 节点 也 
被 部 署 到 这 个 节点 上 ， 具 体 的 服务 和 集群 部 署 情况 如 图 7.7 所 示 。 


.126 
dali 222 .18.159.122 
dfuserver 222 18.159.122 
ecicc server 222.18.159.122 
esp 222.18.159.122 
eclagent 222.18.159.122 


| 222 418.159.122.222 18.159. 
3,222.18. 159.124 222 18.15: 
| 425,222 18.159.126 


222 18 159 122 


222 18.159 122.222 18.159.1: 
3,222 18.159. 124,222 18.159. 
425,222 18.159.126 


222.18 +39. baie eee deg 159. 1 


7.7 ”集群 环境 部 署 情况 


在 此 步 完成 并 提交 之 后 ， 已 经 产生 了 一 个 新 的 HPCC 系统 集群 配置 文件 new.xml。 

(8 ) 用 新 生成 的 配置 文件 蔡 换 原始 的 配置 文件 。 

原始 的 配置 文件 都 是 基于 单 节 点 的 , 我 们 将 新 生成 的 配置 文件 替换 原来 的 配置 文件 ， 并 将 
配置 文件 分 发 到 其 他 节点 ， 蔡 换 原来 的 配置 文件 。 重启 HPCC 系统 服务 后 , 会 按照 新 生成 的 配 
置 文件 来 启动 相关 的 服务 。 新 生成 的 配置 文件 存放 在 /etc/HPCCSystems/source/ 目 录 下 , 真正 的 
运行 环境 在 /etc/HPCCsystems/ 目 录 下 。 

自 先 确保 暂停 所 有 的 HPCC 系统 服务 ， 然后 将 新 生成 的 集群 配置 文件 舍 换 原 有 的 配置 文件 : 


将 新 生成 的 onl be 文件 发 送 到 各 个 节点 并 替换 原 有 | 有 oF enti 文件 。 : 

(9) 重新 启动 集群 。 

HPCC 系统 提供 了 一 些 集群 控制 脚本 ， 这 些 脚 本 存放 在 /opt/HPCCSystems/sbin/ 目 录 下 ， 
Hl J 通过 的 和 dia) HPCC a | 


ee 
启动 集 群 后 ， 各 个 节点 会 按照 配置 文件 启动 相应 的 服务 。 我 们 可 以 根据 配置 文件 来 检查 相 


应 的 服务 是 否 启动 ， 如 果 均 按照 配置 文件 启动 ， 则 HPCC 系统 集群 配置 成 功 。 我 们 可 以 通过 登 
录 http://222.18.159.122:8010 页 面 来 查看 集群 的 整体 情况 。 


7.5 数据 的 加 载 、 切 分 和 分 发 


HPCC 是 一 种 面向 大 数据 的 高 性 能 计算 集群 , 大 数据 处 理 最 为 简单 的 方法 就 是 将 数据 分 布 
到 集群 中 大 量 的 节点 上 进行 分 布 式 并 行 处 理 ， 因 此 数据 的 加 载 、 切 分 和 分 发 是 进行 数据 处 理 的 
基础 。HPCC 的 分 布 式 文件 系统 是 与 系统 紧密 结合 的 ， 在 进行 数据 处 理 和 分 析 ， 系 统 可 以 通过 
文件 的 逻辑 目录 顺利 地 找到 被 分 割 后 的 文件 块 并 对 该 文件 块 进行 处 理 。HPCC 的 这 一 做 法 与 
Hadoop 很 相似 ， Hadoop 中 的 HDFS 文件 系统 也 正 是 在 完成 这 一 任务 。 数 据 的 切 分 是 实现 计算 
向 数据 迁移 的 重要 步骤 。 | 

数据 的 加 载 、 切 分 和 分 发 可 以 利用 HPCC 提供 的 ECLWatch 来 完成 ，ECLWatch 是 一 个 网 
页 化 的 管理 界面 ， 连 接 方式 是 Thor 主 节 点 IP 地 址 (ESP 服务 器 ) +8010 端口 。 

(1) 数据 的 加 载 : 上 传 数据 到 HPCC 系统 。 

在 HPCC 系统 中 ， 原 始 数据 (没有 被 切 分 和 分 发 数据 ) 的 存放 位 置 位 于 在 Thor 集群 的 
Master 市 点 (本 节 中 Master 节点 为 nodel ) 的 /var/lib/HPCCSystems/mydropzone 目录 。 对 于 
2GB 以 下 的 小 文件 ,可 以 利用 ECLWatch 来 完成 文件 的 上 传 ， 对 于 大 文件 则 应 采用 WinSCP 等 
第 三 方 安全 传输 工具 将 数据 上 传 到 对 应 的 目录 。 这 里 我 们 只 介绍 利用 ECLWatch 上 传 数据 文件 。 

利用 浏览 器 登录 HPCC 系统 ESP 服务 器 的 8010 端口 ， 即 可 以 看 到 ECLWatch 的 主 界面 ， 
如 图 7.8 所 示 。 


HPCC Systems 四 全 并 EclWatch Enterprise Services Platform 
Ce WS Se 


community-with-plugins_4.0.2-2 


‘Sort clusters by name ascending |] 
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单 击 ECLWatch 页 面 上 的 “DFU Files” — “Upload/download File”， 单 击 “ 选 择 文 件 ” 按 
钮 ， 选 择 需 要 上 传 的 文件 ， 单 击 “Upload Now” 完成 文件 向 Thor 集群 主 节点 的 上 传 工作 。 文 
件 上 传 后 保存 在 Thor 集群 主 节 点 的 /var/lib/HPCCSystems/mydropzone 目录 下 。 我 们 也 可 以 使 
用 FTP 工具 或 其 他 任何 方式 将 数据 复制 到 HPCC 主 节点 的 这 一 目录 ， 效 果 与 ECLWatch 工具 
上 传 的 数据 一 样 。 文 件 存放 在 Thor 集群 主 节 点 中 是 为 下 一 步 对 文件 进行 切 分 和 分 发 做 准备 。 
通过 这 一 页 面 我 们 也 可 以 将 已 保存 在 主 节点 上 的 文件 下 载 和 删除 。 这 一 步 我 们 将 一 个 测试 数据 
OriginalPerson 上 传 到 系统 。 

(2) 对 源 数据 进行 切 分 ， 分 发 到 各 个 节点 。 

数据 上 传 到 系统 后 为 了 对 海量 数据 实现 分 布 式 的 并 行 处 理 ，HPCC 系统 在 进行 数据 处 理 
之 前 , 会 首先 对 选 定 的 数据 文件 进行 切 分 , 并 将 切 分 后 的 文件 分 发 到 各 个 Slave 节点 , 供 Thor 
集群 进行 处 理 。 对 文件 的 切 分 既 可 以 采取 固定 长 度 切 分 ( Spray Fixed) , 也 可 以 根据 用 户 自己 
定义 的 如 逗号 、 分 号 等 来 进行 切 分 (Spray Delimited ) 。HPCC 系统 的 ECLWatch 提供 了 Web 
接口 的 界面 化 数据 切 分 页 面 ， 我 们 可 以 通过 设置 数据 切 分 参数 ， 采 取 设 定 的 方式 对 数据 进行 
切 分 。 

”这 里 我 们 采用 固定 长 度 的 切 分 方法 。 单 击 “DFU Files” 一 “Spray Fixed” ， 可 以 看 到 如 图 

7.9 所 示 的 页 面 。 

Spray Fixed 

Source 


Machine/dropzone: model s9122/mydropzone @ 


Local Path: IE 一 一 一 


Network Path: //222.1 18, 159, 122/var/lib/HPCCSystems/mydropzone. 
Record Length: 


Destination 


Seong mythor | pe 
Mask: .__$P$_of_$N$ 


Prefix: 
Options 
Overwrite: 
Replicate: 
No Split: 
Compress: 


79 文件 切 分 发 布 页 面 


“Machine/dropzone” 为 加 载 文件 所 在 的 节点 和 区 域 ; 

“IP Address” 为 Thor 集群 主 节 点 的 IP 地 址 ; 

“LocalPath” 为 将 要 进行 切 分 的 数据 所 在 位 置 ， 单 击 “Choose File” 按 钮 ， 这 里 选 
择 刚 刚 上 传 到 主 节 点 /var/lib/HPCCSystems/mydropzone 目录 下 的 数据 文件 
OriginalPerson 数据 , OriginalPerson 数据 集 大 小 为 100MB 左右 , 总 共有 841400 条 记录 ， 
每 条 记录 长 度 为 124 字 节 ， 记 录 中 的 每 个 字段 长 度 小 于 定义 长 度 时 用 空格 补足 ， 每 条 


记录 的 描述 如 下 : 


表 7.2 OriginalPerson 实验 数据 描述 第 

五 

FirstName 15 Character String First Name 名 
LastName 25 Character String Last name 向 
o 

数 

MiddleName 15 Character String Middle Name i 
和 

Zip 5 Character String ZIP Code 能 
计 

算 

Street 42 Character String Street Address = 
A 

统 


City 20 Character String City 
State 2 Character String State 


“Record Length” 为 切 分 数据 每 条 记录 的 长 度 ，OriginalPerson 数据 的 每 条 记录 为 124 
字 节 ,所 以 在 “Record Length” 对 应 的 编辑 框 中 填 入 124， 这 样 系统 在 分 割 文件 时 可 以 保证 
不 会 将 一 条 记录 放 在 不 同 的 节点 上 。 

在 “Label” 键 入 “test::OriginalPerson”， 这 一 标志 对 应 今后 此 数据 切 分 后 的 逻辑 位 置 ， 
单 击 “Submit” 按 钮 ， 即 可 看 到 如 图 7.10 所 示 的 界面 ， 单 击 “ViewProgress” 按 钮 可 以 查看 
数据 切 分 和 分 发 进度 情况 。 


DFU Workunit Details 


ID : D20131230-160218 

I aaa cir ee ere a 
se esi  [ofiginaiperson 5 
DFUServerName : mydfuserver 

Queue : dfuserver_queue 

Protected ; gB 

Command : Spray 

TimeStarted : 2013-12-30 08:02:18 

TimeStopped : 2013-12-30 08:02:31 

PercentDone : View Progress 


ProgressMessage : 100% Done, 0 secs left (104/104MB @27355KB/sec) current rate=27355KB/sec 
[4/4nodes] 


SummaryMessage : Total time taken 13 secs, Average transfer 2735SKB/sec 
State ; T 


SourceIP : 222.18.159.122 
SourceFilePath : /var/lib/HPCCSystems/mydropzone/OriginalPerson 
SourceRecordSize 


SourceFormat 

SourceNumParts ; 

SourceDirectory : /var/libs/HPCCSystems/mydropzone 
DestLogicalName : ie 

DestGroupName : mythor 

DestDirectory : /var/lib/HPCCSystems/hpcc-data/thor/test/ 
DestNumParts ; 

MonitorSub 


AutoRefresh 


7.10 DFU 详细 信息 


进入 Thor 集群 中 的 子 节 点 的 目录 /var/lib/ HPCCSystems/hpcc—data/thor/test/ F , 我 们 能 看 
见 类 似 这 样 的 文件 originalperson._1_of_4, 该 文件 就 是 被 系统 切 分 后 分 发 到 子 节 点 上 的 文件 , 由 
于 我 们 的 实验 平台 有 4 个 子 节点 ， 所 以 文件 被 切 分 为 了 4 个 块 ， 这 是 其 中 的 第 1 个 块 ， 用 户 在 
数据 处 理 时 并 不 需要 直接 操作 这 些 切 分 后 的 块 文件 ， 只 需要 对 文件 的 逻辑 位 置 进行 操 作 束 行 
了 ,系统 会 自动 实现 分 布 式 的 数据 处 理 。 同 时 根据 备份 策略 ,系统 在 /var/lib/HPCCSystems/ 
hpcc-mirror/thor/test/ 目 录 下 保存 一 个 存储 于 其 他 节点 的 数据 块 ， 如 originalperson._4_of_4, 
这 种 交叉 备份 可 以 在 有 一 个 节点 失效 时 数据 能 被 恢复 。 因 此 HPCC 中 的 数据 切 分 和 分 发 过 程 束 
是 将 数据 向 集群 文件 系统 的 分 发 过 程 , 这 个 过 程 完 成 后 数据 就 是 被 分 布 式 地 存储 于 HPCC 集群 
中 的 ， 这 就 为 下 面 对 数 据 进行 分 布 式 分 析 提 供 了 可 能 。 


7.6 ECL 语言 基础 知识 


ECL (Enterprise Control Language ) 是 HPCC 系统 主要 的 编程 语言 。ECL 将 其 代码 编译 为 
优化 的 C++ 代码 ， 然 后 编译 为 Thor 和 Roxie 平台 上 可 运行 的 DLL 库 文件 来 执行 ， 从 而 获得 了 
高 速 性 能 。ECL 非常 灵活 ， 任 何 外 部 语言 如 C++. Java 都 可 以 在 外 部 编写 ， 然 后 编译 为 ECL 
可 以 调用 的 函数 库 。 


ECL 是 HPCC 平台 与 其 他 数据 密集 型 计算 解决 方案 的 主要 区 别 之 一 。 使 用 ECL 语言 无 需 
开发 人 员 关 注 集群 的 计算 节点 数目 , 大 大 降低 了 并 行 编程 难度 , 提高 应 用 开发 人 员 的 效率 。 ECL 
语言 专门 用 于 数据 操作 和 数据 查询 ， 可 以 对 以 往 无 法 处 理 的 海量 数据 进行 操作 。 

ECL 是 一 种 优化 的 以 数据 为 中 心 的 说 明 性 程序 语言 ( declarative language) ， 但 它 继承 
了 很 多 函数 语言 的 特点 。ECL 语言 主要 擅长 应 用 于 对 数据 的 分 析 处 理 和 查询 等 工作 。ECL 
提供 TRANSFORM, JOIN, PROJECT, SORT, DISTRIBUTE, MAP 等 高 级 数据 操作 ， 
大 大 降低 了 项 目的 开发 难度 。ECL 语言 隐藏 了 数据 处 理 时 的 并 行 处 理 过 程 ， 在 程序 设计 时 
不 用 考虑 系统 是 如 何 完 成 数据 并 行 处 理 的 ,ECL 没有 采用 Hadoop 系统 中 Key-Value 这 种 数 
据 结 构 ， 能 实现 对 数据 的 复杂 查询 、 多 键 值 查询 和 模糊 匹配 能 功能 。 由 于 HPCC 系统 是 面 
向 大 数据 的 系统 ， 大 量 数据 的 移动 代价 是 很 大 的 ，ECL 语言 尽 可 能 地 减少 数据 的 移动 ， 采 
用 将 程序 向 数据 移动 的 策略 ， 而 不 是 将 数据 向 程序 移动 ， 比 较 而 言 程序 的 大 小 会 远 远 小 于 
数据 的 大 小 ， 这 种 移动 策略 也 是 大 多 数 大 数据 系统 的 策略 。ECL 语言 看 上 去 像 是 运行 在 分 
布 式 环境 下 的 数据 分 析 语 言 。 

从 功能 上 讲 ECL 程序 包含 两 种 代码 : 定义 和 需要 执行 的 操作 。ECL 语言 的 语法 和 操作 很 
少 ， 学 习 起 来 较为 方便 。 大 多 数 ECL 代码 都 是 由 定义 组 成 ， 同 时 ECL 语言 是 大 小 写 无 关 。 


7.6.1 ECL 语言 的 保留 关键 字 


本 章 的 实例 部 分 会 使 用 一 些 ECL 语言 的 保留 关键 字 ， 下 面 对 这 些 关键 字 的 用 法 进行 简 
单 介 绍 。 

1. EXPORT 关键 字 

EXPORT 关键 字 用 于 指定 能 够 被 其 他 定义 所 引用 的 定义 ，EXPORT 关键 词 后 跟着 定义 名 
称 和 具体 内 容 。 如 下 代码 定义 MyDef 为 字符 串 hello'， 保 存 这 段 代 码 的 文件 为 MyDefecl， 存 放 
于 test 文件 夹 下 ， 注 意 这 里 的 文件 名 需要 和 定义 的 名 称 相同 。 这 样 在 其 他 代码 文件 中 可 以 利用 
test.MyDef 来 引用 这 个 定义 。 : 


2. IMPORT 关键 字 

IMPORT 关键 字 使 EXPORT 所 指定 的 定义 在 该 代码 文件 中 可 用 。 如 下 代码 在 test 文件 夹 
下 新 建 的 代码 文件 中 利用 IMPORT 关键 词 引入 test 文件 夹 下 的 定义 ， 由 于 MyDef 在 test 文件 
夹 下 ， 所 以 可 以 在 这 段 代码 中 引用 MyDef.ecl 文件 中 对 MyDef 的 定义 ， 这 段 代 码 的 输出 为 


'helloworld!' 


SELF 关键 字 用 于 在 TRANSFORM 中 作为 记录 某 一 字段 变化 后 值 的 存储 。 


He 


SS SNE RT aE OK HH} —OOdH fat 


4. GROUP 关键 字 


GROUP 关键 字 主 要 用 于 输出 和 TABLE 定义 中 的 分 类 聚集 操作 ,与 SQL 的 GROUP BY 
相似 。 以 下 代码 实现 将 示例 数据 按 邮编 Zip 进行 分 类 计数 输出 为 交叉 表 。 


7.6.2 ECL 语言 的 记录 定义 和 操作 


ECL 是 一 种 面向 记录 的 语言 ， 对 记录 的 操作 是 ECL 语言 的 一 个 重要 部 分 ， 体 现 了 ECL 语 
言 在 记录 操作 上 的 优势 。 
1 .记录 定义 声明 RECORD 


RECORD 声明 用 于 定义 记录 的 结构 ， 以 END 结束 。 一 个 典型 的 RECORD 定义 如 下 


2. 记录 集 定 义 声明 DATASET 

DATASET 声明 用 于 定义 在 内 存 和 文件 中 生成 记录 集 ， 记 录 的 结构 由 RECORD 声明 所 
定义 。 以 下 代码 根据 示例 数据 生成 记录 集 ， 记 录 集 的 名 称 为 File_OriginalPerson。DATASET 
中 的 第 一 个 参数 ~Test:OriginalPerson' 指定 生成 记录 集 的 原始 数据 的 逻辑 位 置 ， 
Test.Layout_People 指定 记录 的 结构 ，THOR 参数 指定 文件 类 型 为 THOR 。 生 成 的 记录 集 保 
存在 File_OriginalPerson 中 。 


3. 创建 索引 BUILD 

BUILD 的 功能 是 创建 一 个 索引 文件 ,以 下 代码 为 记录 集 File_OriginalPerson 创建 一 个 由 Zip 
作为 索引 的 索引 文件 ， 并 将 索引 文件 存放 在 逻辑 位 置 test: Doon oO: 其 中 fpos 为 每 
nee 


INDEX 引用 一 个 已 被 创建 的 索引 文件 ，INDEX 与 BUILD 创建 的 索引 是 对 应 的 ， 如 果 我 


Se ee test::PeopleByZipINDEX, 则 索引 的 引用 代码 如 下 : 


MyIndex: =INDEX (File. _OriginalPerson, {zip; fpos},' ~test: Pe | 

MyIndex 为 索引 记录 集 的 名 称 ，INDEX 中 的 第 一 个 参数 是 原 始 记录 集 ， 第 二 个 参数 为 索 
引 项 ， 第 三 个 参数 为 索引 文件 的 逻辑 位 置 。 

5. 记录 变换 TRANSFORM 

TRANSFORM 实现 记录 的 变换 ， 它 必须 作用 于 整个 记录 集 并 且 需 要 以 END 关键 字 结束 。 


7.6.3 ECL 语言 集成 开发 环境 


HPCC 提供 一 个 进行 ECL 语言 开发 的 集成 开发 环境 一 一 ECL IDE，ECL IDE 是 运行 在 
Windows 下 的 客户 端 应 用 程序 ， 通 过 ECL IDE 我 们 可 以 实现 针对 HPCC 系统 的 远程 程序 设计 
和 运行 。ECL IDE 的 安装 非常 简单 ， 运 行 安装 程序 即 可 。 

使 用 启动 ECL IDE 时 需要 填写 HPCC 主 服 务 器 上 的 用 户 名 和 密码 ， 如 图 7.11 所 示 。 


ECL IDE community_4.0.2-1 


图 7.11 ECL IDE 登录 界面 


如 果 是 第 一 次 使 用 ， 首 先 需 要 单 击 “Preferences” 按 钮 ， 配置 HPCC 中 Thor 主 服务 器 的 
IP 地 址 。 在 Server 编辑 框 中 填 入 Thor 集群 主 服务 器 的 IP 地 址 ， 如 图 7.12 所 示 。 
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7.12 ECLIDE 登录 配置 界面 


:PeopleByZipINDEX'); 
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登录 进入 ECL IDE 后 的 界面 如 图 7.13 所 示 ， 在 这 个 环境 中 我 们 就 可 以 开始 ECL 程序 的 设 
计 了 。ECL 集成 开发 环境 中 最 主要 的 部 分 就 是 程序 编辑 框 ，ECL 程序 的 编辑 和 修改 就 是 在 这 里 
完成 的 ， 同 时 程序 编辑 框 也 作为 计算 结果 的 显示 和 处 理 框 使 用 ， 同 时 集 开 发 环境 中 经 常用 到 的 
部 分 还 有 语法 错误 提示 框 (syntax error) 、 错 误 日 志 框 (errorlog ) 、 程 序 存 储 框 (repository ) 。 


7.13 ECL IDE 开发 环境 


7.7 ECL 语言 编程 实例 


为 方便 介绍 ， 以 下 实例 都 是 在 MyFiles 下 的 Test 文件 夹 中 完成 的 ， 所 以 首先 在 My Files 下 
建立 一 个 名 称 为 Test 的 文件 夹 作为 存放 ECL 代码 的 文件 夹 。 下 面 实例 中 的 数据 就 是 前 面 上 传 
的 OriginalPerson 数据 。 


7.7.1 ”声明 数据 文件 中 的 记录 结构 


定义 文件 中 的 记录 结构 是 大 多 数 的 ECL 项 目 首先 要 完成 的 工作 ， 在 Test 文件 夹 下 添加 一 
个 文件 名 为 Layout_People 的 文件 (ECL 语言 程序 的 后 缀 为 .ecl)， 在 这 个 文件 中 定义 每 一 条 记录 
个 字段 的 数据 类 于 。 


在 这 段 代 码 中 我 们 定义 了 每 一 个 记录 中 的 字段 名 和 字段 长 度 ， 以 END 结束 定义 。 由 
于 这 一 定义 被 声明 为 EXPORT， 所 以 在 后 面 的 代码 中 可 以 通过 ， Test.Layout_People 来 引 
用 这 一 记录 的 定义 。 要 注意 的 是 这 里 定义 名 要 与 文件 名 相同 ， 都 是 Layout_People。 
Layout_People 记录 的 这 一 定义 与 之 前 上 传 的 示例 数据 的 存储 结构 是 一 致 的 ， 且 长 度 都 是 
124 #7. 


7.7.2 ” 读 取 数据 文件 生成 数据 集 


在 Test 文件 夹 下 建立 新 文件 ， 文 件 名 为 File_OriginalPerson。 


File_OriginalPerson 可 以 被 其 他 文件 引用 。 其 中 DATASET 声明 一 个 数据 文件 中 的 记录 集 ， 而 每 
一 条 记录 的 结构 则 由 RECORD 进行 声明 。DATASET 的 第 一 个 参数 为 数据 文件 的 逻辑 位 置 ， 
第 二 个 参数 为 数据 文件 中 的 记录 结构 ， 第 三 个 参数 为 文件 类 型 。 


7.7.3 ”统计 记录 条 数 


在 Test 文 件 夹 下 添加 一 个 文件 名 为 File_OriginalPersonCount 的 文件 ， 输 入 以 下 代码 。 


COUNT 函数 对 数据 集中 的 记录 条 数 进行 计算 。 

按 “F7” 键 可 以 检查 代码 的 语法 ， 如 果 语 法 没有 错误 ， 单 击 “Submit” 按 钮 提交 服务 器 执 
行 。 以 上 代码 的 功能 是 统计 数据 记录 的 总 统 条 数 ， 执 行 的 结果 如 图 7.14 所 示 ， 结 果 显 示 ， 原 始 
数据 中 共有 841400 条 记录 。 | 


641400 


7.14 ”程序 运行 结果 


o 


这 段 代 码 生成 原始 数据 的 数据 集 ， 由 于 该 数据 集 被 声明 为 EXPORT 该 数据 集 名 称 


oy NN eA ce AE a SF SHE—OOdH fit ae 


在 提交 运行 统计 记录 条 数 这 个 程序 后 在 Thr 集群 的 每 个 了 于 节点 的 ~ 
HPCCSygemsyqueries/mythor_20100/ 文 件 夹 下 生成 了 一 个 与 这 次 程序 提交 时 的 时 间 惟 名称 
相同 的 .so 动态 连接 库 文件 ， 如 图 7.15 中 的 文件 V349257874_libW20140105 一 134510.so。 从 
HPCC 的 系统 架构 来 看 数据 文件 是 被 切割 后 分 布 式 地 存储 于 各 个 节点 上 的 ，COUNT 操作 
需要 读 取 完整 的 数据 ， 所 以 系统 将 程序 分 别 注 入 各 个 节点 进行 执行 ， 在 所 有 子 节点 上 都 能 
看 到 V349257874_libW20140105 一 134510.so 这 个 动态 连接 库 文 件 , 该 文件 就 是 被 注入 的 动态 
连接 库 程序 ， 各 节点 分 别 将 目 己 市 点 的 文件 块 中 的 记录 进行 计数 ， 汇 总 后 即 是 该 程序 的 输 
出 ， 这 一 过 程 对 节点 而 言 是 并 行 化 的 。 这 种 并 行 化 方法 是 基于 数据 切 分 的 并 行 化 方法 ， 这 
一 过 程 与 Hadoop 中 的 MapReduce 过 程 非常 相似 。HPCC 这 种 处 理 方法 向 使 用 者 屏蔽 了 并 
行 数据 处 理 的 复杂 性 ， 从 程序 代码 上 完全 看 不 出 并 行 化 的 特征 ， 看 上 去 就 像 是 对 单个 逻辑 


据 切 分 的 方法 是 大 数据 系统 并 行 计算 较为 通用 的 实现 方法 ， 具 有 内 瞬 的 分 布 式 文件 系统 是 
实现 这 一 方法 的 基础 ，Hadoop 的 HDFS 分 布 式 文件 系统 和 Google 的 GES 分 布 式 文件 系统 
都 起 到 了 这 个 作用 。 


IMPORT Test; 
COUNT (Test.File OriginalPerson) ; 


“a 


| Builder | File OriginalPersonCount (¥20140105-134510) 


7.15 数据 分 布 式 存 储 示 例 


7.7.4 将 数据 集中 的 小 写字 母 改 为 大 与 


将 数据 集中 的 所 有 记录 姓名 部 分 全 部 改 为 大 写 ， 这 种 对 记录 集 的 操作 代表 了 一 大 类 的 记录 
集 操作 ， 可 以 利用 TRANSORM 来 完成 这 一 处 理 。 

IMPORT Test, Std; : 

Test.Layout_People toUpperPlease(Test.Layout_ People pInput):= TRANSFORM 


在 函数 toUpperPlease 前 定义 输出 的 数据 结构 为 Test.Layout_ People 中 定义 的 结构 ， 
TRANSFORM 的 定义 调用 Std.Str. ToUpperCase() 函数 实现 姓名 所 涉及 的 三 个 字段 由 小 写 改 为 大 
写 ， 其 他 字段 大 小 写 不 变 。SELF 指定 记录 中 各 字段 的 输出 。 程 序 运行 结果 如 图 7.16 所 示 ， 所 
有 姓名 都 变 为 了 大 写 。 
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7.16 大 小 写 转换 程序 运行 结果 


大 小 写 转换 后 的 文件 被 重 命名 为 testperson， 存放 于 逻辑 位 置 ~ test/testperson 中 ， 而 文件 的 
物理 存储 方式 仍然 是 分 布 式 的 ,testperson 文件 被 分 为 了 4 块 存放 于 Thor 集群 的 4 个 子 节点 上 ， 
因此 我 们 在 Thor 集群 的 子 节 点 的 目录 /var/lib/ HPCCSystems/hpcc—data/thor/test/ 下 也 能 发 现 


testperson._1_of_4 这 样 被 切 分 后 的 文件 。 


7.7.5 “建立 索引 实现 对 数据 集 的 检索 


要 实现 记录 数据 集 的 高 速 查询 就 需要 建立 索引 ， 索 引 是 对 数据 库 表 中 一 个 或 多 个 列 的 
值 进行 排序 的 结构 。 在 下 面 的 例子 中 我 们 利用 邮编 (Zip) 作 为 索引 项 ， 为 了 根据 索引 定位 记 
录 位 置 ， 建 立 索 引 时 在 每 个 记录 后 面 增加 了 一 个 记录 位 置 项 ， 记 录 位 置 表明 每 条 记录 在 文 
件 中 对 应 的 物理 位 置 。 | 
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(1) 建立 索引 文件 ( MyZipIndex.ecl ) 。 


“生成 数据 集 时 利用 UNSIGNED8 fpos {virtual(fileposition)} 在 每 条 记录 中 增加 了 一 个 字段 
fpos， 该 字段 标明 记录 在 文件 中 的 位 置 。 这 样 在 利用 Zip 进行 索引 时 可 以 通过 fpes 字段 直接 找 
到 记录 在 文件 中 的 位 置 。 | 

BUILD 实现 索引 的 建立 并 将 索引 文件 写 入 逻辑 位 置 test/PeopleByZipINDEX 文件 , 索引 文 
件 不 需要 重复 建立 ，INDEX 生成 索引 数据 集 ， 图 7.17 为 生成 的 索引 数据 集 的 情况 。 
在 子 节 点 的 目录 /varHib/HPCCSystemshpcc-data/thor/tesy 下 可 以 发 现 文件 peoplebyzipindex_1_of 5, 


这 证 明 HPCC 系统 的 索引 文件 也 是 在 子 节点 上 分 布 式 存储 的 ,因此 系统 基于 索引 的 检索 工作 
也 是 分 布 式 检索 的 。 


11 | 00603 19950732 
图 7.17 索引 数据 集 


(2) 利用 索引 进行 检索 ( SearchZipIndex.ecl ) 。 
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33024 2 NEW PROVIDENCE AVE 
33024 889 BROADWAY APT 7A PEMBROKE PINES 9249780 
(33024 214 SPRUCE HILLS DR PEMBROKE PINES 10036436 


33024 17 DEER RUN DR PEMBROKE PINES FL 12616380 


33024 235 W 76TH ST APT 2E 2E | PEMBROKE PINES FL 13228072 


一 一 一 


33624 55 MOOSE HILL RD | PEMBROKE PINES FL 13735108 


7.18 检索 结果 
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7.7.6 ”发 布 数据 


通过 Web 访问 已 建立 索引 的 数据 ， 需要 将 数据 进行 TRA, FE test 文件 夹 下 加 入 文件 名 为 
MyZipPublish 的 新 文件 ， ， 写 入 如 下 代码 : : 


FETCH (File OriginalPerson,MyIndex (Zip=ZipFilter),RIGHT. fpos); 


OUTPUT (resultset}; 


选择 目标 集群 为 thor， 但 单 击 “Submit” 接 钮 提交 ， 在 Thor 集群 发 布 数据 ， 如 图 7.19 


图 7.19 Thor 集群 发 布 


运行 成 功 后 单 击 图 7.20 中 的 “ECL Watch” 按 钮 。 


ECL Watch | Graphs Result 1 | 
Builder | MyZipPublish (#20140103-162303) | 


7.20 “ECL Watch” #248 


可 以 看 到 如 图 7.21 所 示 界 面 : 
Workunit Details 


W20140103-162303 XML ECL Playground 


run 


completed 蛮 


Description: 


Protected: F} 


Cluster: thor 


2 Results: (1) - Show 
| Files: (2) 
| @ Variables: (1) 


Graphs: (1) 


7.21 Thor 集群 发 布 界面 


正常 的 话 可 以 看 到 状态 项 (State) 对 应 的 为 “completed”， 人 集群 (Cluster ) 为 thor 集群 ， 
Jobname 处 系统 目 动 填写 为 文件 名 MyZipPublish。 单 击发 布 按钮 “Publish” 完 成 发 布 。 

发 布 成 功 后 利用 浏览 器 访问 主 节点 IP:8002 sg, ZEA. WsECL Web service 的 主页 面 ， 展 
开 页 面 上 的 Thor 树 状 控件 ， 选 择 MyZipPublish， 可 以 看 到 图 7.22 所 示 的 界面 。 


_WsECL 3.0 Enterprise Services Platform. 


| bwr_fetchpeoplebyzip MYZIPPUBLISHREQUEST 鸣 


| -fetchstd bysexservice (Output Tables S| [Submit] [clearAl] 
ise - , aad 
| "myzippublish 

+ -roxie 


7.22 WsECL Web service 的 主页 面 


在 搜索 框 中 填 入 需要 搜索 的 邮编 值 “33024”， 单 击 “Submit” 按 钮 ， 即 可 得 到 数据 集中 所 
有 邮编 值 为 “33024” 的 记录 列表 ， 如 图 7.23 Aras. 


a 222.18.159.122:8002 


Active Queries Ml 一 
=» Targets myzippublish Response 


+ hthor | 
-me Dataset: Result 1 
一 :thor 

bwr_fetchpeoplebyzip | PEMBROKE PINE 


|W 


~— fetchpeoplebyzipservice | j 
fetchpeoplebyzipservice | 
ee | 
it | 
4 | 
myzippublish | 


中 | 加 
cd Pa 
als 
ils 


fn 


3 
= 
A 
卫 


CD 


7.23 Thor 集群 检索 结果 


利用 Roxie 发 布 时 ，Target 处 选择 “Roxie”， 提 交 时 选择 “Compile”， 其 他 操作 过 程 与 
Thor 集群 发 布 相似 。 


7.7.7 HPCC 中 的 WordCount 操作 


WordCount 操作 是 大 数据 系统 中 常见 的 操作 ， 在 Hadoop 中 也 常常 作为 典型 的 案例 来 进行 
讲解 , HPCC 系统 同样 能 非常 简单 地 实现 对 海量 数据 的 WordCount 操作 。 本 节 将 以 WordCount 
程序 为 例 介 绍 HPCC 程序 的 运行 机 制 。 

WordCount 就 是 对 文件 中 的 单词 出 现 的 次 数 进行 统计 ， 在 Hadoop 系统 中 可 以 通过 一 个 典 
型 的 MapReduce 过 程 来 实现 这 一 功能 ， 而 HPCC 提供 了 功能 更 强大 、 算 法 更 简单 的 实现 方法 。 

HPCC 是 面向 记录 的 , 在 下 面 的 案例 中 我 们 对 Zip 字段 做 WordCount 操作 ,统计 每 个 Zip 
值 在 记录 中 出 现 的 次 数 。 
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7.25 ”文字 的 WordCount 结果 


限于 篇 幅 ， 本 书 未 对 ECL 语言 进行 详细 介绍 ， 只 是 通过 一 些 简 单 例子 使 大 家 能 对 ECL 的 
主要 功能 和 编程 方法 有 所 了 解 。ECL 语言 是 与 Thor 集群 、Roixe 集群 紧密 结合 的 语言 , 通过 与 
HPCC 的 分 布 式 存储 系统 相 结合 实现 了 面向 数据 自动 并 行 计算 能 力 。ECL 语言 里 基本 没有 明显 
的 并 行 化 痕迹 ， 纲 程 人 员 无 需 了 解 集群 的 具体 结构 以 及 程序 并 行 化 执行 的 任何 细节 ， 程 序 从 表 
明 上 看 与 串 行程 序 完全 一 样 ， 这 大 大 降低 了 并 行 化 编程 的 难度 ， 是 ECL 语言 的 重要 优点 之 一 。 
ECL 语言 自动 并 行 化 的 实现 离 不 开 与 之 结合 的 分 布 式 文件 系统 支持 , 正 是 有 了 这 个 文件 系统 的 
支持 ECL 才能 实现 自动 并 行 化 , 分 布 式 文件 系统 为 用 户 隔离 了 数据 分 布 式 存储 复杂 细节 , 这 一 
点 在 多 数 大 效 据 系统 都 能 体现 出 来 。 


练习 题 


1， 简 述 HPCC 的 主要 特点 。 

2， 高 性 能 计算 目前 可 以 分 为 两 类 : 一 类 是 面向 的 高 性 能 计算 ; 男 一 类 是 面向 
的 高 性 能 计算 。 

3 数据 密集 型 集群 计算 系统 主要 有 


NTR Ae OS SEH E——OOdH ft 


两 套 集群 计算 系统 。 
5. HPCC 的 系统 服务 器 包含 


a | 


6.， 简 述 HPCC 平台 数据 检索 任务 的 执行 过 程 。 
7， 熟 悉 HPCC 网 页 化 管理 界面 ECLWatch. 
8， 动 手 完成 HPCC 的 安装 部 署 。 


4. HPCC 系统 从 总 体 物 理 上 可 以 看 作 在 同一 个 集群 上 部 署 了 


大 数据 处 理 有 兹 处理 和 注 处 理 两 种 宽 式 。 批 处 理 模式 下 ， 数据 源 是 疙 的， 使 用 这 种 处 理 
模式 的 系统 有 Hadoop、Disco、Spark 等 ， 流 处 理 模式 下 ， 数 据 源 是 动态 的 ， 使 用 这 种 处 理 模式 
的 系统 有 Storm、S4 等 。 通 常 地 ， 批 处 理 模式 产生 的 中 间 结 果 会 写 入 磁盘 ， 而 流 处 理 模式 产生 
的 中 间 结果 全 部 存 入 内 存 ， 读 写 磁盘 会 大 大 增加 处 理 的 延迟 和 处 理 的 繁 弄 性 ， 因此 流 处 理 模式 
相 较 于 批 处 理 模式 ， 它 的 处 理 延迟 更 低 ， 处 理 过 程 更 加 简单 ， 更 适合 应 用 于 实时 计算 。Storm 
是 一 款 典 型 的 流 处 理 模 式 下 的 大 数据 处 理 分 析 系统， Hedoop NAAR, 其 在 实时 


性 、 高 效 性 、 容错 性 、 Wn we， 


ad 


st S on 简介 ee 0 


BackType :全 (后 被 Twitter ox iy ) ii LA N Nathan Marz, ,在 合用 Hadoop te 因为 
不 满意 Hadoop 系统 的 扩 展 性 和 其 代码 的 繁 珊 性 ， 以 及 其 粗糙 的 容错 处 理 机 

持 实时 流 处 理 、 扩展 1 制 简单 的 编程 模型 Topology, WED s Storms | ‘Storm a 2011 eat 9 月 19 
日 正式 开源 ， 实现 Storm 的 语言 为 一 种 运行 于 Java 平台 的 LISP Hz 言 一 -Clojure。 Storm 是 很 有 | 
潜力 的 流 处 理 系统 ， 出 现 不 久 ， 就 在 淘宝 、 IRR, SEAFSEY Crspoas Facebook. Twister 等 
gn nab a ato Jeo 


交易 量 、 交 易 排行 榜 、 用 户 注册 


的 日 志文 件 超过 6TB; 团购 网 ; 5 Groupon 使 用 Storm 


fe. BURA; Twitter (FE . — (用 户 发 关 


“Storm 的 Topology sone 
FBI, ae "Spout 和 Bolt 两 类 组 件 ， Spout 组 人 Efi 责 读 BE 据 
与 MapReduce 相 比 ， Ct 它 的 任务 粒度 相对 灵活 ， 7 : : 只 局 限于 Mapreduce 中 的 Map0 和 Reduce0 函 
数 ， 用 户 可 以 根据 任务 需求 编写 自己 的 函数 。 同时 ， 它 不 存储 中 间 数 据 ， 组 件 与 组 件 之 间 的 数 
Aaa Wea, FLSA EPR 
0 oe 

(1) Storm 具有 很 好 的 容错 性 、 扩展 性 、 


“Storm 使 用 Zookeeper (Hadoop 中 的 - - 、 ER 项目， 后 wy 所 使 用 的 一 种 分 布 ee 


al Twitter ,上 的 信息 &) iy 0 ii 
itm, eRe ORE ag. 实际 上 就 是 全 
。 i, Bolt 组 件 责任 务 处 理 。 


| 应 用 来 说 ， tee 编程 模型 降 
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A) 作为 集群 协调 工具 ， 当 发 现 正 在 运行 的 Topology 出 错 的 时 候 ， Zookeeper 就 会 告诉 Nimbus 
(Storm 系统 的 主 进程 ,负责 分 发 任务 等 操作 ) , 然后 Nimbus 就 重新 分 配 并 启动 任务 。 在 Storm 
中 ，Topology 被 提交 后 ， 在 没有 被 手动 杀 死 之 前 ， 它 都 将 一 直 处 于 运行 状态 。 这 些 措施 都 是 为 
了 保证 该 系统 的 容错 性 。Storm 采用 三 进程 架 检 ， 无 论 是 集 
群 还 是 单机 都 只 有 这 二 个 进程 。 当 需要 在 集群 中 新 加 入 节点 的 时 候 ， 只 需要 修改 配置 文件 和 运 
行 Supervisor 和 Zookeeper 进程 即 可 ， 扩 展 起 来 十 分 方便 。 另 外 ，Storm 采用 消息 传递 方式 进 
行 数据 运算 ， 数 据 传 输 的 可 靠 性 至 关 重 要 。Storm 系统 中 传递 的 消息 ， 主 节点 都 会 根据 消 
息 的 产生 到 结束 生成 一 棵 消 县 树 。 所 以 ， 消 息 从 诞生 到 消亡 的 整个 过 程 ， 它 都 会 被 跟踪 。 
如 果 主 节点 发 现 某 消息 丢失 ,那么 它 就 会 重新 处 理 该 消 县 。 正 是 因为 有 了 容错 性 、 可 靠 性 
的 保障 ， 该 系统 运行 中 体现 出 健壮 性 ， 不 会 出 现 轻易 宕 机 、 朋 并 的 现象 。 

( 2) Storm 并 行 机 制 灵活 。 

各 个 组 件 的 并 行 数 由 用 户 根据 任务 的 繁重 程度 自行 设 定 , 如果 该 组 件 处 理 的 任务 复杂 
度 高 ， 耗 费时 间 多 ， 那 么 并 行 数 目的 设置 就 偏 大 些 ， 相 反 地 ， 并 行 数 目的 设置 则 偏 小 些 。 
这 样 ， 拓 扑 中 的 每 个 组 件 就 能 很 好 地 配合 ， 最 大 化 地 利用 集群 性 能 ， 提 高 任务 处 理 效率 。 

(3) Storm 文 持 多 种 语言 。 

Storm 内 部 实现 语言 是 Clojure, 基 于 Storm 开发 的 应 用 却 可 以 使 用 几乎 任何 一 种 语言 ， 
而 所 需 的 只 是 连接 到 Storm 的 适配器 。Storm 默认 支持 Clojure、Java、Ruby 和 Python ， 并 
已 经 存在 针对 Scala, JRuby, Perl 和 PHP 的 适配器 。 更 多 的 适配器 将 会 随 着 应 用 的 扩展 
变 得 更 加 的 丰富 。 


8.2 Storm 原理 及 其 体系 结构 


8.2.1 Storm 编程 模型 原理 


Storm 编程 模型 采用 的 是 生活 中 常见 的 并 行 处 理 任务 方式 一 一 流水 线 作业 方式 .Storm 实现 
一 个 任务 的 完整 拓扑 如 图 8.1 所 示 ， 在 Storm 中 每 实现 一 个 任务 ， 用 户 就 需要 构造 一 个 这 样 的 
拓扑 。 该 拓扑 包含 两 类 组 件 : Spout Fil Bolt. Spout 负责 读 取 数据 源 ，Bolt 负责 任务 处 理 。Storm 
处 理 一 个 任务 ,往往 会 把 该 任务 拆 分 为 儿 部 分 , 分 别 由 不 同 的 Bolt 组 件 来 实现 。 这 是 流水 线 作 
业 中 实现 并 行 和 提升 任务 处 理 效率 采用 的 方法 。 


8.1 Storm 编程 模型 Topology 


比如 , 使 用 Storm 处 理 单 词 统计 的 任务 ( WordCount ) ， 该 任务 的 拓扑 如 图 8.2 所 示 。spout 
组 件 负 责 读 取 要 统计 的 数据 源 中 的 句子 ，split 组 件 负 责 将 接收 到 的 句子 拆 分 成 单个 的 单词 ， 把 
这 些 单词 发 送 至 count 组 件 ，count 组 件 负责 统计 发 送 过 来 的 单词 出 现 的 次 数 。 
6 S p out ” “é split 好 6k66 count ” 
Spout Bolt Bolt 
(spout) (split) count 
8.2 WordCount Topology 


这 样 一 个 统计 单词 的 任务 就 被 拆 分 为 三 部 分 来 操作 , 每 部 分 可 以 根据 任务 的 繁重 程度 来 规 
划 并 行 数 目 ， 各 个 组 件 的 并 行 数 没有 明确 规定 。 比 如 ， 可 以 设置 spout 并 行 数 为 2，split 并 行 数 
为 8，count 并 行 数 为 12， 如 图 8.3 所 示 。 


(4 


ee ee 六 
ae & 

i Gre) 
oe sf 


8.3. WordCount 并 行 工作 模式 


8.2.2 Storm 体系 结构 


Storm 中 因为 没有 使 用 文件 系统 ， 相 比 于 Hadoop 它 的 架构 要 简单 得 多 。Storm 依然 采用 的 
是 主 从 架构 模式 ， 即 有 一 个 主 进程 和 多 个 从 进程 。 除 了 这 两 个 进程 以 外 ， 还 有 在 主 进程 与 从 进 
程 之 间 进 行 协调 的 进程 Zookeeper。Storm 的 体系 结构 如 图 8.4 所 示 。 


Er 


8.4 Storm 体系 结构 


oy NR SSH tu] {loo Hf 


| 


Hm | 


知道 了 Storm 是 由 三 类 进程 组 成 ,但 是 Storm 的 三 进程 部 署 到 具体 的 集群 上 又 是 怎样 的 呢 ? 
因为 主 进程 任务 是 负责 分 发 任务 和 调度 任务 ， 在 一 个 任务 中 只 需要 一 个 这 种 角色 ， 所 以 主 进程 
Nimbus 只 需要 部 署 到 一 个 节点 上 。 而 工作 机 进程 是 负责 实际 的 任务 处 理 , 那么 一 个 集群 有 多 少 
节点 配置 多 少 个 工作 机 进程 ， 这 样 才 能 最 大 限度 地 利用 集群 性 能 ， 所 以 Supervisor 需要 部 署 到 
集群 中 的 每 一 个 节点 上 。Zookeeper 进程 负责 主 进程 与 工作 进程 协调 的 任务 ， 因 此 它 也 需要 部 
署 到 集群 中 的 每 一 个 节点 上 。 知 道 了 这 点 ， 下 面 的 部 署 安装 也 就 不 难 理解 了 。 


8.3 ”搭建 Storm 开发 环境 


搭建 Storm 开发 环境 首先 需要 安装 Storm 系统 需要 的 依赖 包 ， 然 后 再 安装 Storm 系统 工具 
包 。Storm 开发 环境 可 以 搭建 在 单机 上 ， 也 可 以 搭建 在 集群 上 。 本 节 我 们 在 4 个 节点 构建 的 集 
群 上 搭建 Storm 开发 环境 。 

1 . 实验 环境 说 明 

(1) 操作 系统 ，CentOS 64 位 (可 以 为 32 位 ， 相 应 地 JDK 也 需要 32 位 )。 

(2) 集群 配置 : 4 个 节点 ，IP:192.168.122.101~104( 根 据 自己 集群 情况 自行 设置 ) 。 

2. 安装 内 容 说 明 

(1) 依赖 软件 : Python, JDK, gcec—c++, uuid*, libtool, libuuid, libuuid—devel, 

(2) 安装 Storm 所 需 工 具 包 包含 Zookeeper、 ZeroMQ 、JZMQ 和 Storm。 

Zookeeper: Hadoop 的 正式 子 项 目 , 是 一 个 针对 大 型 分 布 式 系统 的 可 靠 协 调 系统 , 提供 
配置 维护 、 名 字 服 务 、 分 布 式 同 步 、 组 服务 等 功能 。Zookeeper 的 目标 就 是 封装 好 复杂 易 出 错 
的 关键 服务 ， 将 简单 易 用 的 接口 和 性 能 高 效 、 功 能 稳定 的 系统 提供 给 用 户 。 

Q) ZeroMQ: 类 似 于 Socket 的 一 系列 接口 ， ZeroMQ 与 Socket 的 区 别 在 于 Socket fe Hin 
端的 (1:1 ) 的 关系 ,而 ZeroMQ 是 N: M 的 关系 ,屏蔽 细节 使 得 网 络 编程 更 加 简单 。 

@ JZMQ: 针对 ZeroMQ 的 Java binding. 

@ Storm: Storm 系统 主 程序 ， 本 文 使 用 的 Storm 的 版 本 号 为 0.8.1。 


8.3.1 Storm 的 安装 步骤 


以 下 安装 均 在 root 用 户 下 完成 , 所 需 的 工具 包 存 放 在 压缩 包 storm.tar.gz 中 , 所 以 首先 要 把 
该 压缩 包 解 压 。 

(1) 安装 准备 。 

解压 storm.tar.gz 包 : 


oo hairs elias gtt. uuid*、 libtool、 libuuid、 libuuid—devel: 


保存 退出 ， . 使 用 命令 es th 检查 是 否 安装 成 功 。 
(3) 安装 Zookeeper. 
| 将 weal 安装 包 放 入 系统 目录 Pa 


OE ee | 


vim /etc/profile, 设置 ZOOKEEPER_HOME 和 ZOOKEEPER_HOME/bin: 


使 用 z ZOO a cfg dls tas Pi HOME /conf/zoo. 


新 建 两 个 —— Dolocna EA rp 


至 此 ，Zookeeper 已 经 安装 完成 。 
(4) 安装 ZeroMQ。 


Sen 


更 新 动态 链接 库 : 


ZeroMQ 安装 完成 。 
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ee 


(5) 安装 JZMQ。 
进入 该 软件 包 目 录 : 


(6 ) 安装 Storm。 
解压 Storm 软件 包 : 


“移动 解压 后 的 目录 到 系统 安装 目录 


为 该 目录 添加 一 个 符号 链接 : 


一 一 一 


“vi /ete/profile 为 Storm 配置 环境 变量 ， 添 加 下 面 三 行 : 


保存 退出 ， 到 此 已 完成 Storm 相关 软件 在 一 个 节点 的 安装 。 
(7 ) 将 步骤 (1) ~ (6) 在 其 余 3 个 节点 分 别 执行 一 遍 ,但 是 其 中 的 Zookeeper 服务 可 以 选 
择 安装 一 个 或 者 多 个 ， 即 步骤 (3 ) 可 以 只 在 一 个 节点 上 操作 , 也 可 以 在 多 个 节点 上 操作 , 本 文 


在 192.168.122.101 和 192.168.122.102 两 个 节点 上 安装 了 Zookeeper 服务 。 


8.3.2 Storm 的 设置 


设置 Zookeeper ( 两 个 节点 均 需 做 如 下 操作 ， 注 : 如 果 是 单 节点 ， 就 不 需要 以 下 操作 ): 


文件 最 后 添加 一 行 : 


保存 退出 ，Zookeeper 设置 完成 。 
设置 Storm (4 个 节点 均 需 做 如 下 操作 ) : 


as — ee hp 


| 将 storm. yam 文件 中 的 


另外 ， 可 根据 节点 性 能 情况 适当 添加 Supervisor 进程 槽 端口 号 ， 添 加 几 个 端口 号 就 表示 该 
节点 启动 多 少 个 Sspervisor 进程 ， 本 文 添加 了 如 下 4 个 端口 号 。 实 际 地 ， 可 以 根据 节点 性 能 
加 更 少 或 者 更 多 的 端口 号 。 
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到 此 ， 一 个 节点 上 的 Stom 的 设置 完成 ， 其 余 节 点 配置 一 样 ， 可 以 将 这 个 文件 复制 到 其 他 
节点 的 /usr/local/storm/conf/ 目 录 中 ， 替 换 掉 以 前 的 storm.yaml 文件 。 


8.3.3 Storm 的 启动 


(1) 在 节点 192.168.122.101 和 192.168.122.102 上 启动 Zookeeper 进程 : 


(2) 在 主 节点 192.168.122.101 上 启动 Nimbus, Supervisor, UI 进程 : 
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UI 进程 是 一 个 Storm 系统 的 Web 图 形 管理 进程 ,UI 进程 启动 后 可 以 通过 浏览 右 查 看 Storm 


(3) 在 子 节点 192.168.122.102~192.168.122.104 启动 Supervisor 进程 : 


”现在 检测 是 否 安装 成 功 ,通过 浏览 器 输入 192.168.122.101:8080 查看 ,如 图 8.5 所 示 , 成 功 后 


luster Summary 
Version Nimbus uptime 


03.1 2h t4m 57 


opology summary 
Name id Mates 


Supervisor summary 


Used stots 


0 


0 
§ 


noted 


8.5 Storm 的 Web 监控 界面 


8.4 Storm 使 用 实例 


以 上 几 节 介绍 了 Storm 的 原理 和 体系 架构， 本 市 将 通过 实例 讲解 Storm 的 使 用 方法 。 

为 了 让 用 户 尽快 掌握 Storm 的 使 用 方法 ，Storm 的 创始 人 Nathan Marz 开发 了 一 个 让 Storm 
用 户 快 速 入 门 的 项 目 一 一 storm 一 starter， 这 个 项 目 里 有 很 多 适合 初学 者 动手 练习 的 Topology 示 
例 ， 如 ExclamationTopology, WordCountTopology, ReachTopology 守 ，storm 一 starter 项 目 详情 
可 登录 GitHub 官网 进行 查看 。 

使 用 storm—starter 中 的 Topology ZH, 首先 需要 安装 编译 该 项 目的 软件 。 编 译 storm—starter 
项 目 有 两 种 方法 , 一 种 是 使 用 Leiningen ， 男 一 种 是 使 用 Maven。Leiningen 是 一 个 用 于 上 自动 化 构 
建 clojure 项 目的 工具 ， 而 Maven 是 一 个 基于 项 目 对 象 模 型 (POM) 的 项 目 管 理工 具 ， 这 两 种 
工具 都 可 以 用 于 项 目 管理 。 


8.4.1 使 用 Maven 管理 storm 一 starter 


在 Storm 中 ， 提 交 Topology 只 需 在 主 节点 上 进行 ， 因 此 我 们 只 需 在 主 节点 上 安装 Maven. 
1. Maven 的 安装 
回 到 主 节点 192.168.122.101， 使 用 用 户 storm， 并 切换 到 storm AX: 


解压 maven 包 : 


将 解压 后 的 目录 存放 到 系统 目录 


重合 名 该 上 


为 ee * 


添加 如 下 内 容 : 


使 新 加 环境 变量 生效 : 
到 此 ， 关 于 Maven 的 安装 完成 ， 接 下 来 就 是 如 何 使 用 。 
2. 使 用 Maven 管理 storm-starter 


进入 storm 一 starter 目 录 : 


Wi pin ala te 3 (i 


执行 完 后 ， 可 以 发 现 % storm 一 starter 目 Rh /a arget 目 录 中 多 了 两 个 | \ jar 文件 ， 一 个 是 带 有 依 
RELAY jar 文件 ， 一 个 是 不 带 有 依赖 包 的 jar 文件 ,我 们 需要 的 是 带 有 依赖 包 的 这 个 。 

3. 提交 storm-starter 中 的 Topology 

进入 /target 目录 : 


提交 WordCount 的 Topology: 


提交 后 可 以 在 浏览 器 页 面 看 到 提交 的 wordcountTop 如 图 8.6 所 示 。 
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8.6 启动 wordcountTop 


storm 提交 Topology 命令 格式 如 下 : 


od .ar © 为 要 提交 的 Jar RET Nt storm. _MyTopology nN 的 该 % Jar 包 中 的 
Topology %, arg] 表示 要 为 提交 的 Topology 取 的 运行 后 的 名 字 , 如 果 为 空 它 会 使 用 该 Topology 
的 默认 名 。 

以 上 提交 的 Topology 表示 提交 的 是 storm 一 starter 中 的 eer et ene 它 运 行 后 的 名 
字 为 wordcountTop。 


8.4.2 WordCountTopology 实例 分 析 


WordCountTopology 是 Storm 的 典型 使 用 案例 ， 体 现 出 Storm 对 数据 流 进行 实时 处 理 的 特 
性 ， 其 设计 模型 和 工作 过 程 在 本 章 8.2.1 节 进 行 了 讲解 ， 本 节 将 详细 分 析 WordCountTopology 
的 编码 ， 使 大 家 对 Storm 的 运行 过 程 有 深入 的 了 解 ， 进 而 可 以 开始 编写 自己 的 Topology. 
WordCountTopology 的 主要 代码 段 如 下 : 


首先 ,构造 一 个 Topology 需要 一 个 TopologyBuilder 类 , 设置 好 一 个 TopologyBuilder WR 


一- — ge a 一 


后 就 可 以 开始 构建 该 Topology. Topology 中 包含 两 类 组 件 : Spout Fil Bolt, 分 别 使 用 setSpout() 
和 setBolt0 方 法 设置 ， 这 两 个 函数 的 参数 相同 ， 均 包含 组 件 名 、 组 件 完 成 任务 的 类 和 该 组 件 的 
并 行 任务 数目 ， 其 中 组 件 完成 任务 的 类 是 编写 Topology 需要 主要 编写 类 ， 该 类 主要 包括 Spout 
类 和 Bolt 类 。 

这 里 ,编写 目 己 的 Spout 类 和 Bolt 类 主要 继承 Storm 中 的 Spout 基 类 和 Bolt 基 类 ， 并 重 写 
基 类 中 的 方法 来 实现 。 : 

在 WordCountTopology 中 ，Spout 组 件 完成 的 功能 类 为 RandomSentenceSpout() ， 该 类 继承 
于 Spout 基 类 BaseRichSpout 类 ，RandomSentenceSpout 类 实现 代码 如 下 : 


uuolS cos 
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并 发 送出 去 。 
WordCountTopology 的 Bolt 组 件 包 含 split 和 count. 
SplitSentence(), 实现 代码 如 下 : 


Python 和 Ruby. 我 们 可 以 通过 查看 Javadoc 中 的 ShellBolt 说 明 来 了 解 如 何 通过 Java API 来 使 用 
第 三 方 语言 实现 组 件 功能 。splitsentence.py 实现 代码 如 下 : 


下 面 讲解 如 何 实现 count 组 件 。count 组 件 功能 类 为 WordCount， 它 继承 Bat 
类 BaseBasicBolt， 其 实现 代码 如 下 : 
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在 count 组 件 实现 中 ， 通 过 维持 一 个 中 间 变 量 count 来 保存 中 间 数 据 ， 每 次 更 新 完 <word， 
count> 键 值 对 都 会 实时 发 送 数据 ， 我 们 可 以 非常 及 时 地 了 解 当 前 单词 出 现 的 次 数 。 
组 件 与 组 件 之 间 通 过 消息 传递 的 方式 交互 数据 ， 数 据 传递 的 方式 在 setSpout0 和 setBot() 方 
百 面 进行 设置 。setSpout0 和 setBolt0 返 回 值 类 型 为 BoltDeclarer 类 ， 该 类 定义 了 设置 该 组 件 接 
收 消 奶 的 如 下 6 种 方法 。 
(1) 随机 分 组 ( shufheGrouping ) : 随机 分 发 元 组 到 bolt 的 任务 ， 保 证 每 个 任务 获得 相等 
数量 的 元 组 。 


注释 

元 组 : 数据 项 目 组 成 的 列表 。 

(2) 字段 分 组 ( fieldsGrouping ) : 根据 指定 字段 分 制 数据 流 ， 并 分 组 。 例 如 : 根据 “word” 
分 组 ， 相 同 “word” 的 元 组 总 是 分 发 到 同一 个 任务 , 不同“word” 元 组 可 能 分 发 到 不 同 任务 。 

(3) 全 部 分 组 (allGrouping ) : 元 组 被 复制 到 bolt 的 所 有 任务 。 

(4) 全 局 分 组 ( globalGrouping ) : 全 部 流 都 被 分 到 bolt 的 同一 个 任务 ， 实 际 中 往往 是 被 分 
配 到 ID 最 小 的 任务 。 

(5) 无 分 组 ( noneGrouping ) : 不 需要 关心 流 如 何 分 组 。 现 在 的 无 分 组 方式 等 同 于 随机 分 
组 方式 。 

(6) 直接 分 组 ( directGrouping ) : 元 组 生产 者 决定 元 组 由 哪个 元 组 消费 者 接收 。 

本 他 的 WordCountTopology 中 split 组 件 接收 消息 的 方式 设置 为 随机 分 组 ，count 组 件 接收 
消息 的 方式 设置 为 字段 分 组 ， 字 段 域名 即 split 组 件 中 声明 的 “word”， 即 表示 接收 该 组 件 中 的 
数据 。 

为 外 ， 该 Topology 中 所 有 的 数据 都 在 内 存 中 ， 我 们 如 果 想 看 到 数据 ， 可 以 通过 把 count 
组 件 最 后 发 送 的 数据 写 入 文件 ， 这 样 我们 就 可 以 在 文件 中 查看 这 些 实时 结果 。 


练 吉 题 
. Storm 的 三 进程 架构 包括 、 et Dk 
2. 在 Storm 中 每 实现 一 个 任务 ， 用 户 需要 构造 包含 组 件 的 拓扑 。 


3. 动手 搭建 Storm 开发 环境 。 
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9.1 ”世界 上 第 一 台 真 正 意义 的 数字 电子 计算 机 一 ENIAC 


这 台 计 算 机 的 总 占 地 面积 约 170 平方 米 ， 采 用 电子 真空 管 作为 运算 部 件 ， 电 子 射线 管 作为 
存储 部 件 ， 没 有 内 存储 器 。 其 运行 和 维护 很 复杂 ， 每 执行 一 个 新 的 运算 任务 需要 像 搭 积木 一 样 
把 运算 部 件 进 行 重新 搭配 一 遍 ， 其 电子 管 平 均 15 分 钟 就 要 烧 坏 一 只 ， 因 此 需要 有 专人 24 小 时 
进行 值班 维护 。ENIAC 被 公认 为 是 “数据 中 心 ”的 盟 祖 。 

。 第 一 台 唱 体 管 计 算 机 一 一 IBM 7070 

到 了 20 世纪 60 年 代 , 计算 机 的 真空 管 部 件 逐 渐 被 晶体 管 所 取代 , 计算 机 的 体积 大 幅 减 小 ， 
运算 速度 快速 提升 、 可 靠 性 大 幅 增 强 ， 同 等 性 能 的 计算 机 造价 比 唱 体 管 时 代 大 幅 下 降 。IBM 的 
7070 型 大 型 机 ( 如 图 9.2 Pras) 是 世界 上 第 一 台 晶 体 管 计算 机 ， 这 人 台 计 算 机 使 用 穿孔 卡片 ， 有 
32KB 的 内 存 ， 用 户 数据 在 内 存 和 一 台 磁 辟 之 间 切 换 。 美 国航 空 公 司 和 IBM 联合 开发 了 Sabre 
航空 订 票 系统 ， 该 系统 使 用 了 两 台 7070 型 大 型 机 ， 放 在 一 个 单独 设计 的 数据 中 心 ， 每 天 处 理 
84000 个 航空 电话 业务 ， 自 此 计算 机 开始 用 于 商业 用 途 ， 企 业 级 数据 中 心 开始 出 现 。 


9.2 IBM 7070 型 大 型 机 


第 二 阶段 : 微型 计算 机 /PC 时 代 。 

到 了 20 世纪 70~80 年 代 ， 小 型 计算 机 产业 发 展 迅速 ， 计 算 机 朝 着 体积 更 小 、 性 能 更 强 的 
方向 发 展 。1973 年 世界 上 第 一 台 具 有 揭 面 图 形 界 面 和 鼠标 键盘 的 计算 机 Xerox Alto( 如 图 9.3 
Aras ) 问世 ，Xerox Alto 成 为 此 后 苹果 公司 Macintosh 和 SUN 公司 Workstation 的 灵感 来 产 , 也 
是 第 一 个 所 见 即 所 得 应 用 程序 和 第 一 个 真正 的 Smalltalk 集成 开发 环境 的 硬件 平台 。1988 年 
CRAY Y-MP 巨型 计算 机 (如 图 9.4 所 示 ) 的 面市 推动 了 高 性 能 数据 中 心 的 发 展 ， 当 时 美国 国 
家 大 气 研 究 中 心 的 计算 中 心 就 采用 了 这 种 机 型 。 


9.3 Xerox Alto 94 CRAYY-MP 


这 段 时 间 ， 很 多 企业 开始 使 用 小 型 化 的 计算 机 来 进行 公司 业务 操作 和 数据 处 理 ， 业 务 流 程 
和 业务 数据 与 计算 机 的 融合 加 深 ， 许 多 公司 开始 将 多 台 计 算 机 放置 在 一 个 房间 中 来 方便 维护 、 
管理 。 

到 了 20 世纪 90 年 代 ，PC ( Personal Computer ) 时 代 来 临 ， 随 着 Linux 和 Windows 操作 系 
统 的 出 现 ，PC 的 使 用 快速 普及 ，PC 开始 出 现在 计算 机 房 中 ， 并 用 价格 昂贵 的 网 络 设备 通过 
C/S 模式 的 分 时 操作 系统 供 多 用 户 共享 计算 机 资源 。 性 能 快速 提升 的 数据 中 心 在 不 断 小 型 化 的 
同时 开始 通过 网 络 为 多 用 户 提供 共享 资源 和 计算 服务 ， 现 代数 据 中 心 的 雏形 开始 显现 。 

第 三 阶段 : 互联 网 时 代 。 

20 世纪 90 年 代 中 期 ， 随 着 互联 网 瀛 潮 的 到 来 ,数据 中 心 出 现 了 真正 的 大 发 展 ， 很 多 公司 
都 需要 高 速 、 稳 定 的 互联 网 连接 以 保障 企业 的 网 络 业 务 ， 这 个 时 期 很 多 公司 修建 了 大 规模 的 互 
联网 数据 中 心 (IDC, Internet Data Center ) 。 

第 四 阶段 : 云 计 算 、 大 数据 时 代 。 

巨型 机 、 微 型 机 和 互联 网 是 数据 中 心 发 展 历 程 中 的 关键 性 的 节点 。 在 巨型 机 时 代 ， 计 算是 
集中 式 进 行 的 ， 所 有 计算 均 在 巨型 机 上 进行 ， 科 学 家 们 根据 具体 的 计算 任务 进行 操作 ， 巨 型 机 
的 主要 功能 是 科学 计算 。 到 了 微型 计算 机 /PC 时 代 , 企业 的 业务 系统 等 应 用 部 署 在 了 计算 机 上 ， 
应 用 系统 在 数据 中 心 处 于 核心 地 位 ; 在 互联 网 时 代 ， 应 用 系统 是 数据 中 心 的 服务 器 核心 ， 这 个 
阶段 应 用 系统 在 设计 的 时 候 一 般 固定 运行 在 若干 台 托管 的 服务 器 上 , 当 业 务 系 统 的 压力 变化 时 ， 
无 法 动态 、 实 时 地 对 服务 器 集群 规模 进行 调整 。 

云 计算 、 大 数据 时 代 对 于 数据 中 心 的 安全 性 、 稳 定性 、 集 群 管理 、 能 耗 问 题 、 环 境 影 响 等 
方面 提出 提出 了 更 高 的 要 求 。 Google 的 数据 中 心 数 云 计算 大 数据 时 代 典 型 的 数据 中 心 , 如 图 9.5 
所 示 。 
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9.5 Google 数据 中 心 


目前 ， 人 谷歌、 微软 公司 在 全 球 各 地 的 数据 中 心服 务 器 总 量 均 超过 100 万 台 ， 亚 马 逊 的 联网 

计算 机 数量 为 15.8 万 台 。 目 2006 年 谷歌 建立 自己 定义 的 数据 中 心 以 来 ， 其 在 互联 网 基础 设施 
方面 的 投资 已 经 超过 210 亿美 元 ，2012 年 以 来 ,谷歌 每 个 季度 的 投资 均 超过 10 亿美 元 。 

谷歌 一 般 会 选择 在 电力 成 本 低廉 、 绿 色 能 源 丰 富 、 水 资源 丰富 、 地 域 开阔 、 与 其 他 数据 中 
心 距离 合理 的 地 方 来 新 建 数据 中 心 。 其 服务 器 的 规模 占 全 球 服务 器 总 量 的 3%, 但 只 消耗 了 全 球 
数据 中 心 1% 的 电力 , 可 再 生 能 源 的 使 用 量 展 期 总 电力 消耗 的 近 30%, 这 得 益 于 谷歌 的 数据 中 心 
节能 环保 技术 。 合 歌 将 数据 中 心 的 冷 通 道 温 度 保持 在 27%C， 并 使 用 外 部 空气 冷却 其 数据 中 心 ， 
而 不 是 使 用 耗 能 的 冷却 系统 。 

谷歌 的 服务 器 都 是 由 其 自行 设计 ,减少 不 需要 的 零 组 件 ,减少 不 必要 的 部 件 能 耗 , 减少 风 
扇 数 据 ， 提 高 能 源 使 用 率 效 率 。 

3. 数据 中 心 的 组 成 

数据 中 心 主要 由 基础 设施 、 硬 件 设施 、 基 础 软件 、 管 理 支 撑 软 件 构 成 ， 各 部 分 的 主要 组 成 
如 此 下 : 

(1) 基础 设施 : 机 房 、 装 修 、 供 电 ( 强 电 和 UPS)、 散 热 、 布 线 、 安 防 等 部 分 ; 

(2) 硬件 设施 : 机 柜 、 服 务 器 、 网 络 设备 、 网 络 安全 设备 、 存 储 设 备 、 灾 备 设备 等 ; 

(3) 基础 软件 : 操作 系统 、 数 据 库 软件 、 防 病毒 软件 等 ; 

(4) 管理 支撑 软件 : 机 房管 理 软件 、 集 群 管理 软件 、 云 平台 软件 、 虚 拟 化 软件 等 。 

4. 云 计算 大 数据 时 代 的 数据 中 心 发 展 趋势 

(1) 设备 小 型 化 。 

(2 ) 管理 智能 化 。 

(3) 集中 化 建设 ， 可 弹性 扩展 。 

(4) 数据 的 价值 凸显 。 

(5 ) 绿色 节能 化 。 


9.2 ”数据 中 心 的 基本 单元 一 一 服务 器 


服务 器 (Server) 是 指 运 行 操作 系统 、 数 据 库 系 统 、Web 系统 等 软件 系统 为 网 络 上 其 他 终 
端 提 供 服 务 的 硬件 设备 。 服 务 器 通 肖 都 会 采购 专用 的 CPU, 与 PC 相 比 ， 服 务 器 有 更 高 标准 的 
主权 和 电源 、 以 及 专用 的 市 纠 钳 功 能 的 高 速 内 存 (《ECC 内 存 ) 和 专用 的 硬盘 CSAS MERE. FC 
硬盘 、SSD 硬盘 ) 。 

目前 常见 的 服务 器 从 基础 构架 上 分 为 使 用 RISC ( 精简 指令 集 ) CPU 的 专用 服务 器 (中 型 

机 、 小 型 机 ) ， 这 类 服务 器 主要 用 于 对 浮 点 运算 性 能 较 高 的 应 用 场景 ， 以 及 使 用 CISC ( 复杂 
指令 集 ) CPU 的 通用 服务 器 ( X86 服务 器 ) 。Intel 公司 的 Xeon 系列 和 AMD 公司 的 Opteron 
系列 都 使 用 了 CISC 指令 集 ， 因 为 Xeon 和 Opteron 与 PC 机 的 CPU 都 使 用 了 X86 架构 。 所 以 
这 类 服务 器 通常 被 称 为 X86 IRB AE 

X86 服务 器 可 从 机 箱 结构 和 外 形 、 市 点 密度 、 文 持 的 CPU 数量 分 类 。 

(1) 按 机 箱 结 构 和 外 形 分 类 : FSS Ses. DIARRA AE; 

(2) 按 节 点 密度 分 类 : 单 节 点 服务 器 、 多 市 点 (高 密度 ) 服务 器 ; 

(3) 按 支持 的 CPU 数量 分 类 : eee 双 路 服务 器 、4 路 服务 器 、8 路 服务 器 、16 
路 服务 器 、32 路 服务 器 。 

下 面 对 这 3 种 分 类 方式 进行 详细 讲解 。 

1 . 按 机 箱 结构 和 外 形 分 类 

(1) RSA. 

塔 式 服务 器 的 外 形 如 图 9.6 Aras, SSR eA AR LE A a A eh. Fash, mini 
PesK, CURSES ANAK, RAE baka te ao 


9.6 标准 的 塔 式 服务 器 


(2) PIATRA RE. 

对 于 建设 费用 高 昂 的 数据 中 心 来 说 ， 数 据 中 心 空间 利用 率 非 常 重 要 ， 塔 式 服务 器 的 空间 利 
用 率 较 低 ， 不 适合 用 于 数据 中 心 ， 机 以 式 服务 顺应 运 而 生 ， 如 图 9.7 和 图 9.8 所 示 。 

机 架 式 服务 器 采用 了 与 交换 机 一 样 的 长 方 体 结构 ， 美 国电 子 工业 协会 (EIA ) 制定 了 统一 
的 标准 尺寸 ， 标 准 宽度 ( 两 端 上 架 孔 距 ) 固定 为 470mm， 标 准 深度 为 650mm， 在 高 度 方面 ， 
EIA 推出 了 一 个 专用 计量 单位 “U” (Unit 的 缩 略 语 ) 。1U=1.75 英寸 =44.5mm。 机 架 式 服务 
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9.7 1U 机 架 式 服务 器 9.8 2U 机 架 式 服务 器 


2. 按 节点 密度 分 类 

节点 密度 是 单 台 服务 器 内 置 的 独立 系统 单元 数目 ， 即 单 台 服务 器 内 置 的 主板 数目 。 内 置 一 
个 系统 单元 的 服务 器 称 为 单 节点 服务 器 ， 单 节点 服务 器 是 我 们 平时 最 常见 的 服务 器 类 型 ， 内 置 
两 个 系统 单元 的 服务 器 称 为 双 节 点 服务 右 ， 通 靖 被 称 为 “双子 星 ” 服 务 器 。 以 此 类 推 还 有 “四 
子 星 ”、“ 八 子 星 ”等 ， 节 扩 密度 一 般 为 偶数 。 

单 台 服务 需 的 答 度 在 四 贡 点 及 以 上 的 ， 又 被 称 作 高 密度 服务 器 。 刀 片 机 也 是 高 密度 服务 器 
的 一 种 ， 相 比 “ 四 子 星 ”、“ 从 子 星 ”等 高 密度 服务 器 ， 刀 户 机 在 电源 模块 和 网 络 模块 等 方面 
拥有 更 高 的 集成 密度 ， 目 前 主流 的 刀片 机 可 达 70/16 刀 及 以 上 的 密度 。 

图 9.9~ 图 9.12 分 别 是 双子 星 、 四 子 星 、18 fH. TAAL (7UV14 刀 ) 。 


i 


区 


图 9.9 双子 星 服务 器 ”图 9.10 四 子 星 服务 器 ”图 9.11 18 子 星 服务 器 。 图 9.12 刀片 机 


3. 按 支持 CPU 数量 进行 分 类 

服务 器 所 指 的 “ 单 路 ”、“ 双 路 ”是 指 单 台 服 务 器 的 主板 上 所 能 支持 安装 CPU 的 数量 ， 
一 般 为 偶数 个 CPU 协同 工作 ， 用 以 得 到 更 高 的 单机 (单元 ) 计算 性 能 。 

只 支持 一 颗 CPU 的 服务 器 称 为 单 路 服务 器 ; 支持 两 颗 CPU 的 服务 器 称 为 双 路 服务 器 ; 支 
持 四 颗 CPU 的 服务 器 称 为 四 路 服务 咽 ; 双 路 及 以 上 的 服务 右 统 称 为 多 路 服务 器 。 图 9.13~ 图 9.15 
所 示 分 别 为 单 路 服务 器 、 双 路 服务 器 、 四 路 服务 器 ; 


图 9.13” 单 路 服务 器 9.14” 双 路 服务 器 9.15 “四 路 服务 器 


9.3 ”数据 中 心 选 址 


数据 中 心 的 选 址 是 数据 中 心 建 设 的 早期 重要 工作 ， 数 据 中 心 的 使 用 年 限 往往 会 超过 20 年 ， 
数据 中 心 的 建设 、 运 行 、 维 护 涉及 对 于 地 质 条 件 、 气 候 环境 、 电 力 供给 、 网 络 带 宽 、 人 力 资 源 
等 条 件 ， 需 要 综合 考虑 诸多 因素 。 

地 质 环境 : 大 型 数据 数据 中 心 在 选 址 的 时 候 一 般 倾向 选择 建设 在 地 质 条 件 比 较 稳 定 , 地 震 、 
沉降 等 自然 灾害 较 少 的 地 区 ， 减 少 上 自然 灾害 等 不 可 抗力 对 数据 中 心 运行 的 影响 概率 。 

气候 条 件 : 气候 条 件 对 于 数据 中 心 的 建设 、 运 行 成 本 有 直接 影响 ， 建 设 在 寒冷 地 区 的 数据 
中 心 的 数据 中 心 与 建设 在 炎热 地 区 的 数据 中 心 相 比 ， 用 于 制冷 的 电力 成 本 大 幅 降低 ， 同 时 其 制 
冷 系统 的 建设 级 别 和 造价 相对 较 低 。 Google 在 比利时 、 芬 兰 等 寒冷 地 区 建设 了 自己 的 数据 中 心 ， 
尤其 是 建设 在 比利时 的 数据 中 心 基本 全 年 性 地 采用 无 需 制 冷 剂 的 目 由 冷却 方式 对 数据 中 心 进行 
降温 ， 制 冷 系 统 造价 和 电力 成 本 非常 低 。 

电力 供给 : 数据 中 心 是 电力 消耗 的 大 户 ， 在 美国 ， 数 据 中 心 的 能 耗 已 经 超过 美国 全 国 用 电 
量 的 1.5%; 2012 年 全 球 数据 中 心 的 总 能 耗 已 超过 300 亿 瓦 ， 相 当 于 30 座 核电 站 的 发 电量 ; 单 
个 数据 中 心 的 能 耗 已 经 上 升 到 千 万 瓦 的 级 别 ， 数 据 中 心 在 选 址 时 必须 要 考虑 当地 的 电力 供应 能 
力 和 电力 成 本 。 

网 络 带 宽 : 网 络 带 宽 是 数据 中 心 为 用 户 提供 服务 的 核心 资源 ， 网 络 融 宽 直 接 影 响 用 户 的 
请 求 响应 及 时 性 ， 是 数据 中 心 选 址 考虑 的 重要 因素 ， 需 要 选择 网 络 带宽 条 件 较 好 的 骨干 网 节 
点 城市 。 

水 源 条 件 : 目前 先进 的 数据 中 心 的 冷却 系统 经 常 采 用 水 冷 系统 进行 蒸发 冷却 , 用 水 量 巨大 ， 
例如 , 微软 公司 的 圣安东尼奥 数据 中 心 每 年 需要 消耗 38 万 吨 水 用 于 制冷 , 数据 中 心 选 址 时 需要 
考虑 当地 的 水 源 供给 情况 。 

人 力 资 源 : 数据 中 心 在 选 址 时 需要 选择 在 能 够 提供 必要 的 数据 中 心 的 建设 、 维 护 、 运 营 等 
人 力 的 地 区 。 


9.4 ”数据 中 心 的 能 耗 


本 章 前 面部 分 提 到 ， 数 据 中 心 的 硬件 部 分 由 机 柜 、 服 务 器 、 网 络 设备 、 网 络 安全 设备 、 存 
储 设备 、 灾 备 设备 等 组 成 ， 数据 中 心 的 能 耗 控 制 可 以 分 为 数据 中 心 级 、 节 点 级 、 嚣 件 级 ， 如 图 
9.16 所 示 。 

数据 中 心 级 : 从 较为 宏观 的 数据 中 心 级 别 来 看 ， 制 冷 系 统 所 消耗 的 能 源 占 数据 中 心 总 体能 
耗 的 比重 较 大 ， 制 冷 系 统 的 规划 和 性 能 对 于 数据 中 心 整体 能 耗 的 影响 很 大 。 从 集群 软件 角度 来 
看 ， 数 据 中 心 的 任务 调度 和 负载 均衡 系统 是 影响 集群 性 能 发 挥 的 重要 因素 。 
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节点 级 : 节点 级 的 能 耗 控 制 主要 在 于 根据 攻 点 的 负载 状况 动态 调整 处 于 工作 状态 的 节 


点 效 量 。 
器 件 级 : CPU、 内 存 、 硬 盘 等 需 件 的 能 耗 主 要 通过 调整 工作 电压 和 频率 的 方式 来 控制 。 


a 


| 制冷 控制 
， 任务 调度 


数据 中 心 级 负载 均衡 


名 称 | 能 耗 控 制 方式 
9.16 ”数据 中 心 的 能 耗 结构 


数据 中 心 的 能 耗 通常 是 通过 PUE、DCIE、IT 设备 能 效 比 等 参数 来 进行 评估 。 

lL. PUE 

PUE(Power Usage Effectiveness) FH Se HEAR 4, 网 格 联盟 (The Green Grid) 于 2007 年 提出 ， 是 业 
界 公 认 的 测量 数据 中 心 能 耗 的 主要 指标 之 一 ， 其 定义 如 下 : 

ns mee - 

IT 设备 的 能 耗 为 数据 中 心计 算 、 存 储 、 网 络 等 核心 设备 的 总 能 耗 , 包含 服务 器 、 网 络 设备 、 
存储 设备 等 ; 数据 中 心 整 体能 耗 为 IT 设备 能 能 耗 、 制 冷 设 备 能 耗 、 电 源 能 耗 、 挖 制 仪表 等 设 
备 的 能 耗 的 综合 。 

PUE 值 表 示 数 据 中 心 的 总 能 耗 为 IT 设备 能 耗 的 倍数 ， 其 值 越 小 表示 用 于 数据 中 心计 算 、 
存储 等 核心 设备 的 运行 的 能 耗 比 例 越 大 ， 数 据 中 心 的 能 源 效 率 越 高 。 例 如 ，PUE=3 时 ， 数 据 中 
心 总 能 耗 为 IT 设备 能 耗 的 3 倍 ， 服 务 器 等 IT 设备 每 消耗 1 度 电 ， 空 调 等 其 他 设备 就 要 消耗 2 
度 电 ,数据 中 心 总 体能 效 较 低 ; 当 PUE= 1 时 ,数据 中 心 的 所 有 电能 都 用 于 IT 设备 的 运行 ， 没 
有 其 他 的 能 量 损耗 ， 是 PUE 的 理论 最 小 值 。 

Google 公司 的 拥有 数 以 百 万 计 的 庞大 服务 器 集群 , 其 数据 中 心 建 设 采用 一 系列 先进 的 建设 
技术 ， 其 全 年 平均 PUE 值 为 1.12， 最 优 值 为 1.06， 远 优 于 全 球 PUE 值 的 平均 值 1.8-1.89。 我 
国 的 数据 中 心 PUE 值 相 对 较 高 , 全 国 数据 中 心 PUE 平均 值 为 2.5, 百度 M1 云 计 算 中 心 的 PUE 
值 最 低 ， 全 年 平均 值 为 1.35， 最 优 值 为 1.18， 是 国内 能 效 最 高 的 数据 中 心 。 

数据 中 心 A 有 100 个 机 柜 ， 每 个 机 柜 有 5 台 2U/18 刀 的 刀片 式 服务 器 ， 运 行 时 总 功率 为 
500kW, IT 设备 功率 250 kW， 该 数据 中 心 的 PUE=500/250=2。 


数据 中 心 B 由 200 个 机 柜 ， 每 个 机 柜 有 6 台 机 架 式 2U/4 刀 的 机 以 式 服 务 器 ， 运 行 时 功率 
为 700kKW, IT 设备 功率 为 300 kW， 该 数据 中 心 的 PUE=700/300=2.33。 

以 上 表明 数据 中 心 A 的 PUE 值 低 于 数据 中 心 B， 数 据 中心 A 的 能 效 更 高 。 

2. DCIE 

DCIE(Data Center Infrastructure Efficiency) 是 数据 中 心 能 耗 评估 的 男 一 公认 指标 ， 是 由 美 
国 绿色 网 格 联盟 于 2007 年 提出 ， 用 于 表示 数据 中 心 IT 设备 用 电 占 总 用 电量 的 比例 ， 其 定义 
如 下 : 

IT 设备 能 耗 
数据 中 心 整体 能 耗 

DCIE 是 PUE 的 倒数 , 其 数值 小 于 1, 越 接近 于 1 表明 数据 中 心 能 源 用 于 IT 设备 的 比例 越 
高 ， 数 据 中 心 的 能 源 效 率 越 高 。 

3. IT 设备 的 能 效 比 

IT 设备 自身 的 能 效 也 是 数据 中 心 能 效 的 一 个 重要 指标 ， 其 定义 如 下 : 
IT 设 备 每 秒 的 数据 处 理 流量 

IT 设备 的 能 耗 

这 里 的 IT 设备 指 的 是 服务 器 、 存 储 等 设备 , IT 设备 的 能 效 比 越 高 IT 设备 每 消耗 单位 电能 
所 能 处 理 、 存 储 和 交换 的 数据 量 越 大 ; 执行 相同 的 计算 、 和 存储、 通信 任务 IT 设备 的 能 效 比 越 
高 消耗 的 能 量 就 越 低 , 设备 与 周围 环境 的 热 交 换 就 越 少 , 这 样 可 以 降低 数据 中 心 UPS 和 空调 系 
统 的 设计 容量 ， 进 一 步 降低 数据 中 心 的 能 耗 ， 提 高 数据 中 心 的 能 效 。 


DC 正 = 


IT 设备 的 能 效 比 = 


练习 题 


.数据 中 心 的 发 展 经 历 了 四 个 阶段 。 
数据 中 心 的 选 址 主要 考虑 ; 等 因素 。 
数据 中 心 的 主要 组 成 部 分 有 
PUE 的 定义 为 

. DCIE 的 定义 为 . 
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cit 真 技术 


云 计算 大 


计算 机 仿真 是 将 现实 生活 中 的 系统 ， 用 计算 机 软件 的 方法 在 计算 机 中 建立 大 所 的 替代 物 
以 方便 人 们 研究 系统 各 个 方面 的 性 质 。 比 如 ， 我 们 可 以 使 用 计算 机 软件 对 不 同 气候 条 件 下 的 导 
弹 的 发 射 进行 建 模 ， 模 拟 导弹 的 运动 轨迹 ， 我 们 可 以 对 不 同型 号 的 导弹 在 不 同 的 动力 系统 条 件 
下 的 运动 轨迹 进行 反复 实验 。 使 用 计算 机 软件 的 仿真 技术 具有 经 济 、 安 全 、 可 重复 和 不 受气 候 、 
场地 、 时 间 限制 的 优势 ， 是 理论 推导 和 科学 实验 之 外 人 类 认识 自然 、 改 造 自 然 的 重要 手段 。 

本 书 前 面 几 章 讲 解 了 基于 虚拟 化 的 云 计算 技术 、 基于 集群 的 云 计算 技术 和 云 计算 数据 中 心 
的 相关 知识 ， 基 于 这 些 技术 目前 已 经 有 很 多 的 系统 级 、 算 法 级 和 应 用 级 的 研究 展开 ， 这 些 开发 
和 研究 大 多 需要 仿真 平台 。 比 如 ， 技术 研发 人 员 对 大 规模 集群 的 资源 调度 、 负载 均衡 、 集 群 拓 
扑 等 展开 研究 ， 如 果 在 物理 机 上 进行 实验 ， 必然 需要 消耗 大 量 的 服务 器 、 网 络 设备 资源 ， 实 验 
环境 的 准备 、 实 验 数 据 的 采集 、 实 验方 案 的 调试 很 不 方便 ， 同 时 成 本 很 高 ， 使 用 仿真 系统 是 一 
个 很 好 的 解决 方案 ; 对 于 数据 中 心 的 建设 和 运营 人 员 来 说 ,数据 中 心 的 能 耗 测算 和 经 济 测算 非 
常 重要 ， 需 要 在 项 目 建设 之 前 进行 预 估 ， 无 法 在 实际 的 平台 上 进行 测算 展开 研究 需要 先 在 仿 
真实 验 平 台 上 进行 实验 。 

本 章 的 主要 内 容 包 括 云 计算 仿真 软件 Cloudsim 和 云 计算 系统 相 和 x 间 模型 ， 通过 仿真 软件 
PO 


10.1 用 SHE: LY 和 理 设备 这 进行 仿真 re a ees a 

在 仿真 系统 中 ， MIRROR, ae, HARRELL 
物 在 计算 机 系统 中 构建 被 仿真 对 象 。 

服务 器 是 数据 中 心 的 主要 组 成 部 分 ,我们 以 将 服务 器 的 计算 性 能 、 CPU ros RBA 
内 存 大 小 、 网 络 带宽 等 主要 参数 提取 出 来 ， 构建 服务 器 对 象 。 

下 面 以 一 个 由 4 个 虚拟 机 节点 组 成 的 集群 为 例 ， BREE IT 集群 
的 参数 信息 如 表 10.1 所 示 。 a 


表 10.1 虚拟 机 性 能 参数 


量 、 转 速 、 传 输 速度 等 参数 来 定义 ， 内 存 可 以 用 品牌 、 型 号 、 容 量 、 速 度 、 电 压 等 参数 来 定义 。 
在 对 数据 中 心 的 经 济 模型 进行 仿真 时 ， 我 们 需要 对 CPU 核 单 价 、 硬 盘 空 间 单价 、 内 存 空间 单 
价 、 网 络 带 宽 单价 等 进行 定义 ， 确 定 销售 经 济 模型 。 同 时 ， 需 要 定义 数据 中 心 能 耗费 用 、 维 护 
费用 、 人 员 成 本 等 ， 从 而 综合 确定 数据 中 心 的 经 济 模型 ， 对 数据 中 心 建成 后 的 营 收 情况 进行 预 
测 。 


10.2 云 计算 仿真 系 ae Se a 


10.2.1 CloudSim 基础 


1. CloudSim 简介 

CloudSim 是 澳大利亚 墨尔本 大 学 云 计 算 与 分 布 式 系统 实验 室 开 发 的 一 种 通用 、 可 扩展 的 云 
计算 仿真 框架 ,也 是 一 个 云 计 算 仿 真 工 具 集 , 提供 了 用 于 描述 数据 中 心 、 虚 拟 机 、 应 用 、 用 户 、 
计算 资源 和 管理 策略 等 核心 类 。 

对 海量 集群 资源 的 模拟 仿真 一 直 是 计算 机 领域 的 研究 课题 。 在 网 格 计算 时 代 出 现 了 很 多 仿 
真 平台 ， 如 GridSim, SimGrid, OptorSim, GangSim 等 ， 其 中 GridSim 的 开发 团队 也 是 澳 大 利 
亚 墨 尔 本 大 学 云 计 算 与 分 布 式 系统 实验 室 。Gridsim 等 网 格 计 算 仿 真 软件 没有 将 云 计 算 体系 中 
的 SaaS, PaaS, IaaS 层 抽象 出 来 , 也 没有 虚拟 化 模型 和 资源 管理 模型 ，CloudSim 继承 了 GridSim 
的 编程 模型 ， 弥 补 了 网 格 计算 模拟 软件 的 不 足 。 

基于 CloudSim 云 计 算 仿真 问 ， 我 们 不 仅 能 够 很 方便 地 搭建 可 控 的 云 环境 进而 对 系统 的 资 
源 调度 和 负载 均衡 策略 进行 建 模 和 测试 ， 还 可 以 对 云 应 用 进行 建 模 和 测试 。 研 发 人 员 根 据 测 评 


对 硬盘 、 内 存 等 其 他 设备 也 可 以 如 此 进行 定义 ， 比 如 ， 硬 盘 可 以 用 品牌 、 型 号 、 尺寸 、 容 
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ERC ET EME Va ERE. SIAR, CloudSim 对 云 系统 建立 了 价格 模型 和 能 耗 模型 ， 
帮助 服务 提供 商 制 订 出 更 加 合理 的 价格 策略 和 市 能 机 制 。 

用 户 可 以 使 用 Cloudsim 提供 的 组 件 进行 编程 ， 构 造 自己 的 应 用 场景 ， 也 可 以 扩展 或 者 自 
己 编写 类 来 进行 仿真 ， 使 用 起 来 非常 灵活 。 这 一 点 与 针对 特定 使 用 场景 的 仿真 系统 不 同 ， 针 对 
特定 使 用 场景 的 仿真 系统 在 使 用 的 时 候 只 需 填 写 参数 即 可 使 用 ， 无 需 编程 ， 但 无 法 灵活 地 构建 
使 用 场景 。 

CloudSim 是 使 用 Java 语言 开发 的 ， 用 户 只 需 掌握 Java 语言 的 用 法 和 云 计 算 的 相关 知识 ， 
即 可 建立 云 计 算 模 型 进行 仿真 。 仿 真 平台 是 个 模拟 器， 并 不 能 运行 真实 的 云 计 算 平 台 上 的 应 用 
程序 。 

CloudSim 在 物理 主机 和 虚拟 机 两 个 层面 进行 资源 分 配 。 物 理 主机 中 构建 的 所 有 虚拟 机 共享 
物理 资源 ， 由 CloudSim 中 的 VmScheduler 负责 资源 的 分 配 ; CloudSim 中 仿真 的 任务 称 为 
Cloudlet， 人 集群 中 的 虚拟 机 有 大 量 的 Cloudlet 需要 资源 ， 由 CloudSim 中 的 虚拟 机 资源 调度 器 
CloudletScheduler 负责 资源 的 分 配 。 

2. 为 什么 要 使 用 CloudSim 

对 于 技术 研发 人 员 来 说， 大 规模 集群 的 资源 调度 、 负 载 均衡 、 集 群 平台 ,集群 拓扑 等 研究 
如 果 在 物理 机 上 进行 , 需要 大 量 的 服务 器 、 网 络 设备 资源 ,实验 环境 的 准备 、 实 验 数 据 的 采集 、 
实验 方案 的 调试 很 不 方便 、 成 本 很 高 ， 需 要 先 在 仿真 实验 平台 上 进行 实验 。 

对 云 应 用 服务 的 测试 也 会 比较 腑 烦 ， 主 要 表现 在 : 

(1) 应 用 服务 商 直 接 将 应 用 部 署 到 云 平台 上 之 后 再 进行 测试 , 无 疑 会 带 来 额外 的 成 本 开销 。 
一 旦 应 用 程序 接 入 云 平台 就 必须 要 缴纳 相应 的 费用 ， 这 样 在 应 用 没有 任何 经 济 效益 的 情况 下 就 
产生 了 额外 的 费用 ， 对 于 SaaS 提供 商 来 说 是 不 经 济 的 ; 

(2) 实际 运行 的 云 平台 环境 ( Iaa$、PaaS ) 是 不 可 控 的 ， 整 个 互联 网 环境 时 而 拥塞 ， 时 而 
清闲 ， 从 而 导致 了 云 平 台 资 源 使 用 的 无 规律 性 和 不 可 册 现 性 ， 不 利于 应 用 的 重复 测试 。 

3. CLoudSim 的 特点 

(1) 能 够 在 一 台 PC 上 建 模 和 仿真 大 规模 云 计算 基础 设施 ， 如 数据 中 心 、 物 理 主机 等 ; 

(2) 支持 用 户 任务 以 及 服务 代理 的 建 模 和 仿真 ; 

(3 ) 支持 对 云 计 算 环境 中 的 网 络 环境 进行 建 模 ; 

(4) 有 效 地 利用 虚拟 化 引擎 ， 帮 助 在 数据 中 心 节 点 上 创建 、 管 理 和 销毁 多 个 虚拟 市 点 ; 

(5) 可 以 灵活 地 在 基于 时 间 共 享 和 基于 空间 共享 的 虚拟 化 策略 之 间 进 行 切换 ; 

(6) 支持 对 云 数 据 中 心 的 能 耗 行为 进行 建 模 和 仿真 ; 

(7) 可 以 方便 地 建立 云 平台 资源 的 价格 策略 ， 包 括 存 储 价 格 、 和 带宽 价格 等 ; 

(8) 能 够 模仿 多 个 云 厂家 之 间 进 行 透明 交易 ， 包 括 任 务 迁 移 、 存 储 迁 移 、 价 格 协 商 等 。 


10.2.2 CloudSim 体系 结构 


CloudSim 的 多 层 体系 架构 如 图 10.1 所 示 。 
用 户 代 码 
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10.1 CloudSim 分 层 体系 架构 


1 . 用 户 代码 层 

用 户 代 码 层 处 于 系统 的 上 层 ， 包 含 仿真 描述 和 调度 策略 ， 用 户 在 这 一 层 定 义 云 计 算 方案 、 
用 户 需 求 ， 进 行 应 用 配置 ， 同 时 云 应 用 开发 人 员 可 以 生成 工作 流 请 求 ， 根 据 用 户 的 配置 进行 云 
计算 场景 的 强力 测试 。 

( 1) 仿真 描述 。 

对 于 云 服 务 使 用 者 来 说 ， 他 们 需要 测试 应 用 程序 在 特定 云 平台 上 的 服务 性 能 ， 或 者 测试 应 
用 程序 需要 占用 多 少 云 资 源 ， 只 需 创建 与 特定 云 平台 类 似 的 虚拟 云 平 台 ， 并 按 应 用 程序 的 需求 
( 如 带宽 、 内 存 等 ) 创建 对 应 的 云 任务 (在 CloudSim 中 云 任务 被 定义 为 Cloudlet ) 。 之 后 ， 就 
可 以 让 云 任 务 运行 在 虚拟 的 云 平 台 上 最 终 得 到 测试 结果 。 

比如 ， 一 个 亚马逊 云 平台 的 使 用 者 ， 想 在 其 上 部 署 一 个 网 络 硬盘 的 应 用 程序 ， 希 望 估算 需 
要 租用 多 少 服务 ， 可 以 使 用 CloudSim 进行 仿真 。 首 先 ， 使 用 CloudSim 建立 一 个 虚拟 的 亚马逊 
云 平 台 ; 然后 ， 在 其 上 建立 一 定数 量 的 虚拟 机 资源 对 应 某 一 云 服务 性 能 ; 最 后 ， 按 照 自 己 的 预 
期 生成 云 服 务 ( 比如 ， 需 要 多 大 的 硬盘 、 带 宽 、 内 存 等 ) ， 使 其 运行 在 之 前 建立 的 虚拟 的 云 服 
务 上 得 出 测试 结果 。 | 

(2) 调度 策略 。 

从 云 服 务 提 供 者 的 角度 ， 服 务 提供 者 想 测 试 云 平 台 任 务 调度 策略 是 否 合 理 ， 或 者 服务 商 提 
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出 一 种 新 的 任务 调度 策略 ， 在 使 用 之 前 需要 对 其 进行 测试 。 测 试 的 重心 相 较 于 CloudSim 就 不 
一 样 了 ， 测 试 的 步骤 需要 先 实现 目 定 义 的 任务 调度 策略 (主要 是 更 改 数据 中 心 代理 
DatacenterBroker ) 。 比 如 ， 亚 马 逊 的 用 户 发 现 当 前 的 任务 调度 策略 没有 发 挥 最 好 的 作用 ， 设 计 
实现 了 一 种 新 的 调度 策略 ， 可 以 先 在 CloudSim 进行 仿真 。 首 先 ， 改 写 DatacenterBroker 的 任务 
调度 策略 的 代码 ; 然后 ， 创 建 云 平台 和 云 任务 并 运行 ， 最 终 得 出 测试 结果 。 

2. CloudSim Jz 

CloudSim 仿真 层 的 主要 作用 是 对 基于 虚拟 化 的 数据 中 心 环境 中 的 虚拟 机 、 内 存 、 存 储 、 带 
宽 等 进行 建 模 仿真 。 将 物理 机 切 分 为 虚拟 机 、 应 用 程序 管理 、 集 群 系统 状态 监控 等 工作 由 
CloudSim 仿真 层 来 完成 。 用 户 在 CloudSim 仿真 层 编写 自己 的 策略 ， 就 可 以 对 虚拟 化 数据 中 心 
的 虚拟 主机 分 配 策略 进行 研究 ， 评 估 不 同 的 分 配 策略 下 数据 中 心 的 运行 情况 。 云 应 用 开发 人 员 
可 以 在 CloudSim 仿真 层 测 试 不 同 的 云 应 用 的 运行 效果 。 

实际 的 云 计算 环境 中 基本 组 成 元 素 是 数据 中 心 (Datacenter ) 。 数 据 中 心包 含 了 大 量 的 物理 
主机 , 且 云 环境 下 的 物理 主机 是 可 以 被 多 个 虚拟 机 共享 的 ，Cloudsim 定义 了 一 组 资源 共享 策略 
的 接口 (UtilizationModel ) ， 来 摘 述 如 何 使 用 共享 资源 ，Cloudsim 中 的 主机 可 以 被 多 个 虚拟 机 
共享 。 资 源 共 享 策略 主要 有 空间 共享 ( Space 一 Based ) 策略 和 时 间 共 享 ( Time—Based ) 策略 。 

空间 共享 策略 是 指 在 茶 一 段 时 间 内 只 把 计算 资源 分 配给 某 一 个 虚拟 机 /计算 任务 独占 ; 时 
间 共 享 策略 是 指 某 一 时 间 段 内 计算 资源 可 以 在 多 个 虚拟 机 /计算 任务 之 间 进 行 共享 。 例 如 , 一 台 
具有 两 个 CPU 的 主机 ，CloudSim 在 主机 上 部 畴 了 2 个 虚拟 机 VM1、VM2， 每 个 虚拟 机 都 有 
4 “MES, VM1 上 的 任务 为 tL、t2、b、 坪 ，VM2 上 的 任务 为 5、t6、t7、t8， 如 图 10.2 所 示 。 


时 间 


10.2 不 同 资源 共享 策略 下 的 任务 执行 情况 


图 10.2 (a) 所 示 为 主机 层 和 虚拟 机 层 都 采用 空间 共享 策略 的 计算 任务 时 间 图 ，VMI 先 独 
占 2 个 CPU， 待 任务 处 理 完 再 交 给 VM2， 同 时 任务 tt 和 任务 怒 分 别 独占 CPU1 和 CPU2， 待 
处 理 完成 后 交 给 3 和 t4; 图 10.2 (b) 所 示 为 主机 层 采用 空间 共享 的 策略 ， 在 虚拟 机 层 采用 时 
间 共 享 的 策略 。 图 10.2 (c) 所 示 为 在 主机 层 采 用 时 间 共 享 的 策略 ,虚拟 机 层 采 用 空间 共享 的 策 
略 ; 图 10.2(d ) 所 示 为 在 主机 和 虚拟 机 层 都 采用 了 时 间 共 享 策略 。 


10.2.3 CloudSim 的 使 用 模型 场景 


CloudSim 的 用 途 十 分 广泛 ， 本 节 讲 解 CloudSim 的 3 种 典型 的 使 用 模型 场景 。 

1 . 云 数 据 中 心 的 能 耗 模型 

云 计算 系统 包含 大 量 互 相连 接 的 主机 、 存 储 设 备 和 网 络 设备 等 ， 维 持 这 样 庞大 的 系统 运行 
需要 消耗 大 量 的 电力 。CloudSsim 提供 了 电力 控制 策略 的 模拟 , 能够 让 用 户 设 计 出 符合 本 地 数据 
中 心 特 点 的 电力 方案 ， 从 而 节约 成 本 ， 提 高 整个 系统 的 运行 效率 。 

在 CloudSim 中 实现 一 个 抽象 类 PowerModel， 用 来 对 电力 策略 进行 建 模 。 用 户 可 以 通过 继 
承 该 抽象 类 ， 编 写 自 己 的 电力 供应 方案 ， 在 CloudSim 上 进行 仿真 实验 ， 从 而 验证 供电 方案 的 
整体 效果 。 

2. 云 平 台 的 经 济 模型 

云 计算 是 基于 互联 网 的 服务 的 增加 、 使 用 和 交付 模式 ， 通 剃 涉 及 通过 互联 网 来 提供 动态 、 
易 扩 展 且 经 常 是 虚拟 化 的 资源 。 用 户 可 以 像 使 用 水 和 电 一 样 使 用 云 计 算 资 源 ， 只 需 付 费 给 云 服 
务 提供 商 就 可 以 租用 其 提供 的 计算 、 存 储 以 及 网 络 等 资源 。 对 计算 资源 、 网 络 资 源 以 及 存储 资 
源 的 定价 对 于 数据 中 心 的 运营 非常 重要 。 

CloudSim 中 对 定价 策略 进行 模拟 分 为 基础 设施 层 和 服务 层 两 个 层次 。 

(1) 基础 设施 层 : 这 一 层 主要 包括 内 存单 元 的 价格 、 外 存 的 价格 、 数 据 传输 的 单位 成 本 以 
及 计算 资源 的 价格 。 

(2 ) 服务 层 : 这 一 层 主要 是 应 用 程序 服务 使 用 的 资源 价格 。 如 果 使 用 者 只 是 利用 了 云 中 的 
基础 设施 而 没有 在 其 上 部 署 任何 的 应 用 ， 比 如 只 是 创建 了 几 台 虚拟 机 ， 并 没有 在 虚拟 机 上 运行 
任何 的 任务 ， 那 么 他 将 不 需要 为 服务 层 付费 。 

CloudSim 的 数据 中 心 类 (Datacenter) 包含 了 一 些 关 于 价格 的 参数 ， 如 CPU 的 使 用 价格 、 
网 络 的 使 用 价格 、 内 存 和 硬盘 的 使 用 价格 等 ， 方 便 价格 策略 的 建 模 。 


3. 联合 云 模型 
在 讲解 联合 云 模型 之 前 ， 首 先 需要 对 以 下 几 个 概念 进行 区 分 : 公有 云 、 私 有 云 、 混 合 云 以 
及 联合 云 Oo 


(1) 公有 云 : 面向 互联 网 大 众 的 云 服 务 。 其 受众 是 整个 互联 网 环境 下 的 所 有 人 ， 只 要 注 
册 缴 纳 一 定 的 费用 任何 人 都 可 以 使 用 其 提供 的 云 服 务 。 目 前 ， 比 较 流 行 的 公有 云 平 台 有 国外 
的 Amazon EC2、GAE ( Google App Engine ) ， 国 内 的 SAE(Sina App Engine)、BAE(Baidu App 
Engine) 等 。 

(2 ) 私有 云 : 面向 企业 内 部 的 云 计 算 平 台 。 使 用 其 提供 的 云 服 务 需 要 一 定 的 权限 ， 一 般 只 
提供 给 企业 内 部 员工 使 用 。 其 主要 目的 是 合理 地 组 织 企业 已 有 的 软 硬 件 资源 ， 提 供 更 加 可 靠 、 
弹性 的 服务 供 企 业内 部 使 用 。 

“(3 ) 混合 云 : 混合 了 私有 云 和 公有 云 。 一 般 像 银行 这 样 的 单位 ， 其 内 部 的 私有 云 系统 在 用 
户 访问 高 峰 期 的 时 候 很 难 满 足 要 求 ， 此 时 就 可 以 接 入 到 公有 云 中 应 对 更 多 的 用 户 请 求 。 
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(4 ) 联合 云 : 联合 多 个 云 服务 提供 商 的 云 基础 设施 , 向 用 户 提供 更 加 可 靠 、 优惠 的 云 服务 ， 
主要 针对 公有 云 平台 。 比 如 ， 部 署 在 云 平台 上 的 CDN (内容 分 发 网 络 ) 服务 ， 系 统 存储 的 数 
据 内 容 在 地 理 上 是 分 散 的 , 用 户 也 是 分 布 在 世界 各 地 。 如 果 A 国家 的 用 户 请 求 一 个 分 布 在 B 国 
家 的 数据 内 容 ， 那 么 数据 就 会 途经 许多 路 由 ， 增 加 了 网 络 的 时 延 。 联 合 云 能 够 自动 地 将 用 户 请 
求 的 数据 资源 迁移 到 距离 用 户 比较 近 的 云 数 据 中 心 ， 提 高 CDN 的 质量 保证 。 

CloudSim 中 定义 了 云 协调 器 实体 ( CloudCoordinator ) 。 它 不 仪 负责 与 其 他 的 云 计 算 平 台 
进行 通信 ， 而 且 负 责 监控 本 云 平 台 系 统 的 状态 〈 如 任务 负载 情况 、 网 络 延迟 情况 等 ) 。 在 整个 
仿真 阶段 ， 云 协调 喜 的 监控 进程 始终 是 活跃 的 ， 从 监控 进程 反馈 回来 的 信息 为 以 后 进行 云 平台 
之 间 的 任务 调度 作 参 考 。 

在 进行 联合 云 仿真 的 时 候 ， 两 个 需要 被 控制 的 基本 问题 是 通信 与 监控 。 通 信 问 题 主要 由 
数据 中 心 通过 以 事务 为 基础 的 消息 进程 进行 控制 。 监 控 问 题 主要 由 云 协调 器 进行 控制 。 每 一 
个 加 入 联合 云 的 云 寺 算 平台 都 需要 实例 化 一 个 云 协调 器 实体 。 云 协调 器 会 根据 本 地 数据 中 心 
的 状态 触发 CloudSim 中 联合 云 的 任务 负载 均衡 进程 。 云 协调 器 监控 得 到 的 数据 是 由 传感器 实 
体 (Sensor) 提供 的 。 在 每 次 监控 时 ，CloudCoordinator 都 会 查询 一 下 Sensor， 判 断 数 据 中 心 
的 负载 是 否 达 到 了 事先 定义 好 的 任务 转移 条 件 ( 如 数据 中 心 负载 超过 多 少 等 ) 。 如 果 达 到 了 
该 条 件 ， 那 么 本 地 的 云 协调 器 就 会 与 联合 云 中 的 其 他 云 平台 的 云 协 调 器 进行 协商 ， 进 行 任务 
负载 的 转移 。 


10.2.4 CloudSim 使 用 实例 


CloudSim 是 基于 Java 语言 编写 的 开源 软件 , 用 户 使 用 CloadSini 和 Eclipse 集成 进行 云 计 算 
仿真 实验 和 开发 工作 。 

1. 下 载 CloudSim 

登录 http://code.google.com/p/cloudsim/downloads， 下 载 cloudsim 一 3.0.3.zip， 解 压缩 。 

2. 准备 Eclipse 开发 环境 | 

根据 用 户 机 器 的 CPU 位 数 ， 下 载 相应 的 Eclipse 版 本 并 安装 。 

单 击 “File” — “New” — “Java Project”， 新 建 Java 项 目 , 命名 为 “CloudSim”， 如 图 
10.3 所 示 。 


Create a Java Project 
Create a Java project in the workspace or in an externa! location. 


10.3 准备 Eclipse 开发 环境 | 


工程 中 用 到 了 math 里 面 的 类 ， 需 要 引入 commons 一 math3 一 3.2.jar 这 个 库 。 用 户 下 载 7 了 
commons 一 math3 一 3.2.jar 后 ， 选 中 新 建 的 项 目 “CloudSim”， 单 击 右键 ， 选择 “Build Path” 一 
“Add External Achieve”， 将 其 导入 。 

3. 运行 测试 程序 

Cloud 提供 了 一 些 实例 程序 ， 使 初学 者 对 能 快速 了 解 CloudSim， 实 例 程 序 存 放 在 解压 
后 的 CloudSim 文件 夹 中 ， 打 开 /cloudsim 一 3.0.3/examples/org/cloudbusy cloudsim/ examples, 
将 其 中 的 6 个 示例 程序 CloudSimExample1 .java~CloudSimExample6.java 复制 到 工程 中 。 这 里 
我 们 打开 示 倒 程序 CloudSimExample6.java, 按 “Ctrl+F1” 快 捷 键 即 可 运行 示例 程序 ， 显 示 
如 下 的 运行 结果 。 
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4, 数据 中 心 仿真 实例 | : 

本 节 我 们 使 用 CloudSim 来 仿真 一 个 由 两 台 双 核 物理 机 组 成 的 最 小 单元 集群 ， 体 验 
CloudSim 系统 的 使 用 。 每 台 物 理 机 分 为 4 台 虚 拟 机 ， 即 2 台 虚 拟 机 共享 1 个 CPU 核 ， 集 
群 共有 8 台 虚 拟 机 ， 每 台 虚 拟 机 的 运算 能 力 (mips) 各 不 相同 。 这 个 数据 中 心 需 要 处 理 
的 外 部 负载 任务 数 为 16。 任 务 调度 由 DatacenterBroker 负责 , 本 实例 分 别 使 用 轮 询 算法 和 
最 小 执行 时 间 优先 算法 进行 任务 调度 ， 使 用 CloudSim 进行 数据 中 心 的 仿真 运行 实验 ， 查 
看 两 种 算法 调度 的 执行 情况 。 这 两 种 算法 的 区 别 在 于 : 轮 询 算法 按照 虚拟 机 的 顺序 ， 依 

负载 分 配 到 虚拟 机 节点 ; 最 小 执行 时 间 优 先 算法 将 最 大 的 负载 分 配 到 处 理 能 力 最 强 的 虚 
拟 机 。 

(1) 创建 虚拟 机 。 

在 CloudSim 中 ， 我 们 通过 使 用 镜像 大 小 、 虚 拟 机 内 存 大 小 、CPU 计算 性 能 、 带 宽 等 参数 


来 定义 虚拟 机 的 性 能 。 a Be | 
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创建 外 部 负载 任务 , 我们 对 任务 的 执行 长 度 、 占 用 空间 大 小 、 输出 文件 大 小 、 使 用 的 CPU 
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主 程序 是 CloudSim 仿真 的 重点 , 用 CloudSim 仿真 的 主要 步骤 分 为 6 步 : 初始 化 CloudSim 
ee ee ee 
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10.3 云 计 算 系 统 相 空间 模型 


云 计算 系统 从 诞生 之 日 起 就 与 大 规模 、 异 构 性 以 及 复杂 性 息息相关 。 大 规模 是 指 云 计算 系 
统 会 涉及 多 个 数据 中 心 、 海 量 的 物理 节点 和 网 络 设备 ， 异 构 性 主要 表现 在 海量 的 物理 节点 的 软 
硬件 配置 各 不 相同 ;对 于 大 规模 异 构 的 云 计 算 系统 来 说 ， 无 论 是 系统 内 部 的 资源 调度 和 负载 均 
衡 ， 还 是 对 系统 的 服务 性 能 评估 和 服务 定价 都 是 十 分 复杂 的 。 使 用 仿真 技术 进行 云 计 算 系 统 相 
关 方面 的 研究 可 以 简化 研究 工作 、 节 省 大 量 成 本 。 | 

云 计 算 系统 相 空 间 模型 是 一 种 针对 具有 海量 节点 的 云 计算 集群 的 仿真 模型 ， 通 过 将 物理 节 
点 的 主要 参数 (如 CPU 占用 率 、 内 存 占用 率 ) 抽象 出 来 作为 点 的 坐标 ， 构 建 云 计算 集 群 的 相 空 
间 。 将 节点 的 参数 变化 转化 为 相 空 间 中 点 的 运动 ， 利 用 海量 节点 在 参数 相 空 间 的 运动 与 热力 学 
运动 的 相似 性 ， 定 义 广义 温度 、 广 义 焙 等 广义 热力 学 参数 ， 我 们 可 以 通过 节点 在 相 空间 中 的 投 
影 点 来 观测 节点 的 状态 变化 ， 并 通过 广义 温度 、 广 义 灶 等 的 参数 来 监控 集群 的 整体 运行 情况 。 

1. 云 计算 集群 的 相 空 间 投影 | 

云 计 算 集 群 中 的 每 台 服 务 器 的 工作 状态 可 以 用 一 个 状态 参数 向 量 来 表述 (参数 1, BA 
2, +, BBin ) , 如 (CPU 占用 率 0.3， 内 存 占用 率 0. 2，…， 连 接 数 占用 率 0. 1 ) 。 当 它 映 射 


在 相 空间 模型 下 时 ， 参 数 向 量 的 维 数 对 应 于 相 空 间 的 维 数 ， 向 量 终点 在 相 空 s 间 的 位 置 代表 服务 
器 多 个 参数 的 综合 负载 情况 ， 反 映 了 服务 器 当前 的 工作 状态 

参数 相 空 间 的 定义 : 由 服务 器 的 某 两 个 或 多 个 参数 为 广义 坐标 轴 所 形成 的 一 维 或 多 维 空 s 间 | 
称 为 云 计算 系 统 的 参数 相 空 间 。 参 数 相 空间 是 云 计 算 集群 的 整体 工作 情况 在 某 个 时 刻 上 的 一 个 
快照 。 

动量 相 空间 的 定义 : 为 了 描述 云 计算 的 动态 工作 情况 我 们 定义 了 动量 相 空 间 , 动量 相 空 间 
以 投影 点 在 某 一 单位 时 间 片 内 在 相 空 间 内 移动 的 距离 看 作 速 度 作 为 纵 轴 ( 投影 点 的 质量 设 为 1， 
纵 轴 就 可 看 作 是 动量 ) ， 投 影 点 离 当 前 时 刻 广义 重心 的 距离 作为 横 轴 ， 一 个 调度 民 好 的 云 计算 
系统 在 动量 相 空 间 中 应 聚集 在 原点 附近 ， 系 统 投影 点 聚集 在 原点 附近 表明 当前 系统 运行 稳定 、 
负载 均衡 。 

2. 云 计算 集群 在 相 空间 上 投影 的 广义 参数 定义 

具有 海量 节点 的 高 耦合 云 计算 集群 向 相 空间 投影 后 ， 由 于 在 外 部 负载 请 求 的 作用 下 相 空 间 
上 的 各 个 点 会 不 断 地 产生 运动 ， 大 量 的 点 的 运动 呈现 出 较为 典型 的 热 运动 特征 ， 分 析 参 数 相 空 
间 上 各 点 的 位 置 便 可 以 对 集群 资源 进行 有 效 地 调度 ， 而 且 我 们 可 以 利用 热力 学 中 的 参数 特性 来 
对 应 的 定义 云 计 算 系 统 在 相 空 间 投影 下 的 广义 热力 学 参数 作为 对 云 计 算 系 统 进 行 分 析 的 工具 。 

假定 服务 器 数量 为 m ,服务 器 参数 有 n 个， 由 于 nn 个 参数 在 调度 时 的 重要 性 不 同 , 所 以 假 


设 各 参数 所 占 权重 分 别 为 a， a,, be ’ Ha, + a, a eee ak” =] 9 则 服务 器 节点 向 nn 维 相 空 
间 的 投影 点 集 为 
A ‘lsism0Sx,354,0S5x, Sa,, *0 <x, a, } 


集群 在 参数 相 空间 中 投影 的 广义 重心 位 置 是 判断 集群 整体 负载 情况 和 建立 集群 管理 调度 
策略 的 重要 参数 。 云 计算 集群 参数 相 空 间 投影 的 广义 重心 坐标 是 由 被 投影 的 所 有 服务 器 工作 状 
态 参 数 的 平均 值 构成 。 云 计算 集群 在 某 时 刻 投影 点 的 广义 重心 位 置 为 G， 坐 标 写 为 
(了 XY,, 卫 ,,…, 子 , ). 广义 重心 坐标 计算 公式 为 


在 对 云 计算 系统 进行 调度 效果 评价 时 ， 相 空间 上 所 定义 的 广义 温度 和 广义 焙 分 别 反映 了 系 
统 当前 的 活动 状态 和 系统 的 均衡 状态 。 在 实际 计算 时 可 以 将 单位 时 间 间隔 内 的 相 空间 所 有 点 两 
次 位 置 采 样 的 平均 移动 距离 作为 广义 温度 。 根 据 热力 学 原理 单个 点 的 运动 只 有 速度 概念 ， 大 量 
点 的 运动 就 具有 了 温度 的 概念 ， 当 节点 接受 新 任务 时 ， 其 相 空间 投影 点 向 相 空 间 右 上 方 运动 ， 
当 节 点 释放 任务 时 ， 其 相 空间 投影 点 向 相 空间 原点 运动 。 广 义 炳 的 计算 一 般 采 用 将 相 空间 划分 
为 nxn 的 网 格 ,根据 服务 器 投 影 点 洲 入 网 格 的 数目 /利用 广义 业 的 定义 公 趟 到 = 让 Cs 来 
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空间 上 定义 的 这 类 热力 学 参数 称 为 广义 热力 学 参数 。 


练习 题 


1. 网 格 计算 仿真 系统 主要 有 Se ee ee 
2. GridSim 和 CloudSim 的 区 别 有 哪 些 ? 

3， 简 述 CloudSim 仿真 的 主要 步骤 。 

4. 


编写 一 段 简单 的 C 语言 程序 对 由 1000 个 同 构 节 点 的 集群 进行 模拟 定义 。 


参考 文献 


[1] 陈 国 良 , 吴 俊 敏 , 章 锋 , 章 隆 兵 . 并 行 计 算 机 体系 结构 [M]. 北 京 : 高 等 教育 出 版 社 ,2002. 

[2] EHS. 云 计算 的 关键 技术 与 应 用 实例 IM]. 人 民 邮 电 出 版 社 , 2010. 

[3] Calheiros R N, Ranjan R, Beloglazov A, et al. CloudSim: a toolkit for modeling and 
simulation of cloud computing environments and evaluation of resource provisioning algorithms|]]. 
Software: Practice and Experience, 2011, 41 (1) : 23-50. 

[4] ch, 慈祥 . 大 数据 管理 : 概念 , 技术 与 挑战 田 . 计算 机 研究 与 发 展 , 2013, 50 (1) : 
146 一 169. 

[5] The fourth paradigm: data—intensive scientific discovery[J], 2009. 


[6] 中 国 大 数据 技术 与 产业 大 发 展 白皮书 [RJ]. 中 国 计 算 机 学 会 ，2013. 
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Hadoop、HPCC、Storm、 数 据 中 心 技术 和 云 计算 大 数据 仿真 技术 。 本 书 注重 实用 ， 实 验 丰富 ， 将 实验 内 容 融 合 在 课程 内 容 
中 ， 使 理论 紧密 联系 实际 。 
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